https://www.youtube.com/watch?v=yVKSle9y_Ik
1. 고객구매예측 개요
A. CRM 시대 도래 -> 캠페인 관리에 활용할 데이터 기반 모델 필요
1) 고객과 관련된 다양하고 방대한 데이터가 축적되면서, 이 데이터를 활용하려는 시도가 강화되고 있음
2) 특히 CRM 시대의 마케팅 활동 중 '캠페인 관리(Campaign Management)'가 있는데, 효과적인 캠페인 기획 및 운영을 위해서는 '캠페인 목적에 부합하는 적절한 대상자'를 선정하는 것이 중요
- 캠페인(Campaign) : 교차판매, 이탈 고객의 재활성화 등과 같이 특정 목적을 가지고 정기적 혹은 비정기적으로 일정한 기간 동안에 일정한 조건에 부합하는 목표 고객들을 대상으로 펼쳐지는 1:1 커뮤니케이션 활동
- 캠페인과 프로모션의 차이
- 대상 : 구체적인 목표 고객 vs 불특정 다수
- 목표 : 목표고객별 차별화된 목표 vs 일반적인 제품홍보 또는 판매촉진
B. 고객분류(Customer Classification)
주요 논문
C. 최근 논문 #1. EM(2018)
Zeng, M., Cao, H., Chen, M., & Li, Y. (2019). User behaviour modeling, recommendations, and purchase prediction during shopping festivals. Eletronic Markets, 29(2), 263-274
1) 2016년 광군절 기간(11월 11~13일)에 JD.com(징동닷컴) 구매에 참여한 고객들의 행동적 특징 분석, CF(협업 필터링) 기반 상품 추천, 그리고 구매 예측
- 47,604 사용자의 236,809개 상품에 대한 581,430건의 쇼핑 행동 기록을 대상으로 분석
- 해당 기간 쇼핑에 참여한 사용자들의 행동 분석
2) 분석 대상 데이터를 기반으로 추천 모델 실험
- 구매 여부를 바탕으로 하여 User-Item Matrix 도출 -> 3,821 Users x 5,564 Items
(그런데 이 중 구매(1)로 표기된 행렬항은 6,166개에 불과 : 심각한 희소성 문제(Sparsity Problem) 발생
- 희소성 문제를 해결하기 위해, '전이학습(transfer learning)'의 개념을 차용
(특정 상품을 조회했거나, 카트에 상품을 담는 행동 정보까지도 고객의 향후 구매 행동을 예측할 때 사용
- 실험결과
3) 광군절 기간 동안 구매자와 비구매자 간 행동 차이를 분석하고, 구매예측을 위한 이분류 모델 구축
- 세션 내 클릭 횟수와 세션의 지속시간에 있어서, 구매자와 비구매자 간에 뚜렷한 차이가 있음을 확인
- 제품 카테고리별로 세션별 통계량(클릭횟수, 지속시간)을 이용해 Logit 모델 구축 (5-fold 교차 분석 수행)
( 그 결과 상당히 높은 수준의 ACU(Area Under ROC) 값이 산출됨)
D. 논문#2. IEEEA(2019)
Ling, C., Zhang, T., & Chen, Y. (2019). Customer purchase intent prediction under online multi-channel promotion : A feature-combined deep learning framework. IEEE Access, 7, 112963-112976
1) 최근 유행하는 다채널 판촉(multi-channel promotion) 환경에서 고객과 채널 간 인터랙션을 고려하여 구매 의도를 예측하는 FCD(Feature-Combined Deep Learning) 프레임워크 제안
E. 논문 #3 . ECRA(2019)
Mokryn, O., Bogina, V., & Kuflik, T. (2019). Will this session end with a purchase? Inferring current purchase intent of anonymous visitors. Eletronic Commerce Research and Applications, 34. 100836
-> 식별되지 않은 방문객 (anonymous visitors)의 구매 예측 연구
1) 대부분의 기존 연구는 알려진 고객(known customers)을 대상으로 수행. 하지만 비식별 방문자(anonymous visitors)가 로그인하지 않은 상태로 구매하는 경우도 상당히 많음 -> 기존 연구의 사각지대!
2) 비식별 방문객의 경우, 해당 방문객의 기존 쇼핑 이력이나 관심사 등을 사용 불가
3) 이에 본 연구에서는 제품들의 유행 트렌드 및 방문객의 임시 정보(temporal information)을 활용하여 비식별 방문객의 구매를 예측하고자 함.
4) 제안모형의 검증을 위해, 비식별 방문객의 클릭스트림 로그 정보를 포함하고 있는 2개의 공개 데이터셋을 사용
(YooChoose RecSys 데이터셋 : 소비재를 판매하는 유럽의 대형 인터넷 쇼핑몰의 6개월치 클릭스트림 데이터)
(Zalando 데이터셋 : 유럽의 대형 패션 쇼핑몰의 클릭스트림 데이터)
5) 구매로 이어진 세션보다 비구매로 끝난 세션이 월등하게 많음 : SMOTE 오버샘플링 기법을 적용
6) TD_S_k(t) 외에 아래 세션의 특징 변수들을 추가적인 독립변수로 활용 (Y: YooChoose, Z : Zalando)
- Month(Y) : 몇 월에 세션이 발생했나?
- Day of the week(Y) : 무슨 요일에 세션이 발생했나? (YooChoose의 경우, 일요일과 월요일에 구매 많았음)
- Dwell time(Y) : 얼마나 특정 페이지에 오래 머물렀나?
- Day number from the beginning of the dataset(Z) : 날짜가 따로 없는 Zalando의 경우, 시작부터 몇 번째 날인지로 구분
- Number of clicks in a session(Y, Z) : 세션 중 클릭된 횟수
7) 다양한 종류의 Classifiers 실험
- LR, Bagging, NBTree, XGBoost
8) 실험결과, Trendiness를 사용할 때 Time Windows에 관계없이 항상 더 나은 에측품질(F1)이 산출됨을 확인
F. 논문#4. KBS(2019)
Park, C., Kim. D., & Yu, H. (2019). An encoder-decoder switch network for purchase prediction. Knowledge-Based Systems, 185, 104932.
1) 본 연구의 배경
a. 사람들은 보통 과거에 클릭했던 상품을 구매하는 경향이 있음
- 데이터 분석 결과, Taobao의 경우 72%, Tmall의 경우 45%의 고객들이 과거에 클릭했던 제품을 나중에 와서 구매
b. 보통의 경우, 가장 많이 클릭했던 상품이 최종적으로 구매되는 경향이 있음.
- 저자들이 분석해보니 가장 많이 클릭된 상품으로 구매를 예측해보면, Recall이 68%나 나왔음 (즉, 전체 구매 상품의 68%는 이전에 가장 많이 조회한 상품이었다는 의미)
- 이런 케이스를 저자들은 "duplicate" click session이라고 부름
c. 하지만, 고객들 중에는 후보가 될 상품들을 1번씩만 클릭해서 조회한 후, 그 중에서 바로 구매할 상품을 낙점해 버리는 사람들도 있음
- 이런 케이스를 저자들은 "non-duplicate" click session이라고 부름
2) PurchaseNet의 성능을 3개의 공개 데이터셋을 이용해 검증
a. YooChoose, Xing, Taobao 데이터셋 사용 : 모두 공개 데이터셋
b. 비교기법으로 itemKNN, MLP, CDAE, GRU4REC 등을 사용
c. 성능은 Recall과 MRR을 사용
- 기본적으로 이 예측 문제는 순위를 예측하는 것과 관련이 있기 때문
- 예를 들어, 10개의 클릭된 아이템 중 2개가 구매되었다면, 알고리즘으로 Top 2의 구매 상품을 예측하는 방식으로 진행
G. 논문#5. IPM(2019)
Carreon, E. C. A., Nonoka, H., Hentona, A., & Yamashiro, H. (2019). Measuring the influence of mere exposure effect of TV commercial adverts on purchase behavior based on machine learning prediction models. Information Processing & Management, 56(4), 1339-1355
-> TV 상업 광고의 노출효과(mere exposure effect)가 있을까?"를 기계학습 예측 모델에 기반해 분석한 연구
1) 빅데이터 및 기계학습을 활용한 뉴미디어의 효과연구는 심심치 않게 이루어지고 있는 반면, 전통적 매체인 TV 광고 효과는 이러한 첨단 접근법이 잘 적용되지 않고 있음
2) 이에 본 연구에서는 노무라 연구소(Nomura Research Institute)에서 제공된 가구별 TV시청 및 개인 설문조사결과(3개월 간격으로 측정된 구매 의도와 실제 구매행동 정보 포함)를 활용하여, TV 광고 효과를 검증하고자 함.
3) 분석의 틀
- 예측모델 유형 : 제품 중심 모델(product-based models) / 사용자 중심 모델(user-based models)
- 종속변수 유형 : 구매 의도 / 실제 구매행동
- 입력변수 유형 : 광고 시청시간만 사용 / 광고 시청시간 + 인구통계정보 (구매의도) / 인구통계정보만 사용 (구매 의도)
4) 적용된 기계학습 모델 : SVM, XGBoost, LR
5) 총 3,000명의 사용자가 광고를 시청한 36개 제품에 대해 분석
6) 실제 구매행동을 어떻게 보였는지에 따라 아래와 같이 6개 카테고리로 고객집단 구분
7) 실험결과를 엄청 많이 제시 : {SVM, XGBoost, LR} x {Product-based, User-based} = 총 6개 결과
- 평균 기준으로 Product-based를 보면, F1값은 LR(0.350) > SVM(0.339) > XGBoost (0.282)
- 평균 기준으로 User-based를 보면, F1값은 SVM(0.317) > LR(0.307) > XGBoost(0.279)
8) 3개의 가설을 세우고 추가 검증 진행
- 가설 1. 광고 노출 시간을 사용한 모델의 성과가 인구통계 정보를 사용한 모델의 성과와 다르게 나타난다.
- 가설 2. 인구통계 + 광고 노출 시간을 사용한 모델의 성과가 인구통계를 사용한 모델의 성과와 다르게 나타난다.
- 가설 3. 광고 노출시간을 사용한 모델의 성과가 인구통계 + 광고 노출시간 정보를 사용한 모델의 성과와 다르게 나타난다.
- 가설 검증 결과는 종속변수 유형, 카테고리, 모델 유형 등에 따라 제각각 나타남
9) 그래서 결과적으로 이 논문이 알아낸 것은 무엇이냐?
a. 가설 1과 가설 2, 가설 3의 검증결과로 볼 때, 광고 노출시간은 모델 성능 개선에 크게 도움을 주지 못하더라. (TV광고 효과가 별로 효과가 없었다)
b. 모델의 성능은 대체로 '인구통계'정보가 좌지우지했다 (예외도 있는데 Category1, Category 5 - 끈질기게 '구매 안한 사람들' 집단) : 광고 노출도, 인구통계 특징도 이들의 행동 변화를 이끌지 못했다
c. Primetime에 하는 TV광고도 특별히 효과가 더 있는 것은 아닌 것으로 나타났다.
10) 결과적으로 이 연구는 TV광고가 '매출 증대'라는 핵심 목표 달성에 실패하고 있음을 확인
a. TV광고에 일본 기업들이 매년 수조엔을 투입하고 있는데, 그 효과가 저조한 것으로 확인되었으므로 산업의 변화가 필요
'CS > MachineLearning' 카테고리의 다른 글
딥러닝 유지 보수 과정 (0) | 2022.05.05 |
---|---|
XAI 설명가능한 인공지능, 인공지능을 해부하다 (0) | 2022.04.28 |
Shapley Value (0) | 2022.04.27 |
한번에 EDA 리포트 짱짱 pandas profiling 한글 폰트로 고통받는다면? (0) | 2022.04.16 |
Must Have 머신러닝·딥러닝 문제해결 전략 (0) | 2022.04.14 |
댓글