인공지능세미나 9주차 강의 - 고객구매예측연구주제 탐색

https://www.youtube.com/watch?v=yVKSle9y_Ik

1. 고객구매예측 개요

A. CRM 시대 도래 -> 캠페인 관리에 활용할 데이터 기반 모델 필요

1) 고객과 관련된 다양하고 방대한 데이터가 축적되면서, 이 데이터를 활용하려는 시도가 강화되고 있음

2) 특히 CRM 시대의 마케팅 활동 중 '캠페인 관리(Campaign Management)'가 있는데, 효과적인 캠페인 기획 및 운영을 위해서는 '캠페인 목적에 부합하는 적절한 대상자'를 선정하는 것이 중요

- 캠페인(Campaign) : 교차판매, 이탈 고객의 재활성화 등과 같이 특정 목적을 가지고 정기적 혹은 비정기적으로 일정한 기간 동안에 일정한 조건에 부합하는 목표 고객들을 대상으로 펼쳐지는 1:1 커뮤니케이션 활동

- 캠페인과 프로모션의 차이

- 대상 : 구체적인 목표 고객 vs 불특정 다수

- 목표 : 목표고객별 차별화된 목표 vs 일반적인 제품홍보 또는 판매촉진

B. 고객분류(Customer Classification)

주요 논문

C. 최근 논문 #1. EM(2018)

Zeng, M., Cao, H., Chen, M., & Li, Y. (2019). User behaviour modeling, recommendations, and purchase prediction during shopping festivals. Eletronic Markets, 29(2), 263-274

1) 2016년 광군절 기간(11월 11~13일)에 JD.com(징동닷컴) 구매에 참여한 고객들의 행동적 특징 분석, CF(협업 필터링) 기반 상품 추천, 그리고 구매 예측

- 47,604 사용자의 236,809개 상품에 대한 581,430건의 쇼핑 행동 기록을 대상으로 분석

- 해당 기간 쇼핑에 참여한 사용자들의 행동 분석

2) 분석 대상 데이터를 기반으로 추천 모델 실험

- 구매 여부를 바탕으로 하여 User-Item Matrix 도출 -> 3,821 Users x 5,564 Items

(그런데 이 중 구매(1)로 표기된 행렬항은 6,166개에 불과 : 심각한 희소성 문제(Sparsity Problem) 발생

- 희소성 문제를 해결하기 위해, '전이학습(transfer learning)'의 개념을 차용

(특정 상품을 조회했거나, 카트에 상품을 담는 행동 정보까지도 고객의 향후 구매 행동을 예측할 때 사용

- 실험결과

3) 광군절 기간 동안 구매자와 비구매자 간 행동 차이를 분석하고, 구매예측을 위한 이분류 모델 구축

- 세션 내 클릭 횟수와 세션의 지속시간에 있어서, 구매자와 비구매자 간에 뚜렷한 차이가 있음을 확인

- 제품 카테고리별로 세션별 통계량(클릭횟수, 지속시간)을 이용해 Logit 모델 구축 (5-fold 교차 분석 수행)

( 그 결과 상당히 높은 수준의 ACU(Area Under ROC) 값이 산출됨)

D. 논문#2. IEEEA(2019)

Ling, C., Zhang, T., & Chen, Y. (2019). Customer purchase intent prediction under online multi-channel promotion : A feature-combined deep learning framework. IEEE Access, 7, 112963-112976

1) 최근 유행하는 다채널 판촉(multi-channel promotion) 환경에서 고객과 채널 간 인터랙션을 고려하여 구매 의도를 예측하는 FCD(Feature-Combined Deep Learning) 프레임워크 제안

E. 논문 #3 . ECRA(2019)

Mokryn, O., Bogina, V., & Kuflik, T. (2019). Will this session end with a purchase? Inferring current purchase intent of anonymous visitors. Eletronic Commerce Research and Applications, 34. 100836

-> 식별되지 않은 방문객 (anonymous visitors)의 구매 예측 연구

1) 대부분의 기존 연구는 알려진 고객(known customers)을 대상으로 수행. 하지만 비식별 방문자(anonymous visitors)가 로그인하지 않은 상태로 구매하는 경우도 상당히 많음 -> 기존 연구의 사각지대!

2) 비식별 방문객의 경우, 해당 방문객의 기존 쇼핑 이력이나 관심사 등을 사용 불가

3) 이에 본 연구에서는 제품들의 유행 트렌드 및 방문객의 임시 정보(temporal information)을 활용하여 비식별 방문객의 구매를 예측하고자 함.

4) 제안모형의 검증을 위해, 비식별 방문객의 클릭스트림 로그 정보를 포함하고 있는 2개의 공개 데이터셋을 사용

(YooChoose RecSys 데이터셋 : 소비재를 판매하는 유럽의 대형 인터넷 쇼핑몰의 6개월치 클릭스트림 데이터)

(Zalando 데이터셋 : 유럽의 대형 패션 쇼핑몰의 클릭스트림 데이터)

5) 구매로 이어진 세션보다 비구매로 끝난 세션이 월등하게 많음 : SMOTE 오버샘플링 기법을 적용

6) TD_S_k(t) 외에 아래 세션의 특징 변수들을 추가적인 독립변수로 활용 (Y: YooChoose, Z : Zalando)

- Month(Y) : 몇 월에 세션이 발생했나?

- Day of the week(Y) : 무슨 요일에 세션이 발생했나? (YooChoose의 경우, 일요일과 월요일에 구매 많았음)

- Dwell time(Y) : 얼마나 특정 페이지에 오래 머물렀나?

- Day number from the beginning of the dataset(Z) : 날짜가 따로 없는 Zalando의 경우, 시작부터 몇 번째 날인지로 구분

- Number of clicks in a session(Y, Z) : 세션 중 클릭된 횟수

7) 다양한 종류의 Classifiers 실험

- LR, Bagging, NBTree, XGBoost

8) 실험결과, Trendiness를 사용할 때 Time Windows에 관계없이 항상 더 나은 에측품질(F1)이 산출됨을 확인

F. 논문#4. KBS(2019)

Park, C., Kim. D., & Yu, H. (2019). An encoder-decoder switch network for purchase prediction. Knowledge-Based Systems, 185, 104932.

1) 본 연구의 배경

a. 사람들은 보통 과거에 클릭했던 상품을 구매하는 경향이 있음

- 데이터 분석 결과, Taobao의 경우 72%, Tmall의 경우 45%의 고객들이 과거에 클릭했던 제품을 나중에 와서 구매

b. 보통의 경우, 가장 많이 클릭했던 상품이 최종적으로 구매되는 경향이 있음.

- 저자들이 분석해보니 가장 많이 클릭된 상품으로 구매를 예측해보면, Recall이 68%나 나왔음 (즉, 전체 구매 상품의 68%는 이전에 가장 많이 조회한 상품이었다는 의미)

- 이런 케이스를 저자들은 "duplicate" click session이라고 부름

c. 하지만, 고객들 중에는 후보가 될 상품들을 1번씩만 클릭해서 조회한 후, 그 중에서 바로 구매할 상품을 낙점해 버리는 사람들도 있음

- 이런 케이스를 저자들은 "non-duplicate" click session이라고 부름

2) PurchaseNet의 성능을 3개의 공개 데이터셋을 이용해 검증

a. YooChoose, Xing, Taobao 데이터셋 사용 : 모두 공개 데이터셋

b. 비교기법으로 itemKNN, MLP, CDAE, GRU4REC 등을 사용

c. 성능은 Recall과 MRR을 사용

- 기본적으로 이 예측 문제는 순위를 예측하는 것과 관련이 있기 때문

- 예를 들어, 10개의 클릭된 아이템 중 2개가 구매되었다면, 알고리즘으로 Top 2의 구매 상품을 예측하는 방식으로 진행

G. 논문#5. IPM(2019)

Carreon, E. C. A., Nonoka, H., Hentona, A., & Yamashiro, H. (2019). Measuring the influence of mere exposure effect of TV commercial adverts on purchase behavior based on machine learning prediction models. Information Processing & Management, 56(4), 1339-1355

-> TV 상업 광고의 노출효과(mere exposure effect)가 있을까?"를 기계학습 예측 모델에 기반해 분석한 연구

1) 빅데이터 및 기계학습을 활용한 뉴미디어의 효과연구는 심심치 않게 이루어지고 있는 반면, 전통적 매체인 TV 광고 효과는 이러한 첨단 접근법이 잘 적용되지 않고 있음

2) 이에 본 연구에서는 노무라 연구소(Nomura Research Institute)에서 제공된 가구별 TV시청 및 개인 설문조사결과(3개월 간격으로 측정된 구매 의도와 실제 구매행동 정보 포함)를 활용하여, TV 광고 효과를 검증하고자 함.

3) 분석의 틀

- 예측모델 유형 : 제품 중심 모델(product-based models) / 사용자 중심 모델(user-based models)

- 종속변수 유형 : 구매 의도 / 실제 구매행동

- 입력변수 유형 : 광고 시청시간만 사용 / 광고 시청시간 + 인구통계정보 (구매의도) / 인구통계정보만 사용 (구매 의도)

4) 적용된 기계학습 모델 : SVM, XGBoost, LR

5) 총 3,000명의 사용자가 광고를 시청한 36개 제품에 대해 분석

6) 실제 구매행동을 어떻게 보였는지에 따라 아래와 같이 6개 카테고리로 고객집단 구분

7) 실험결과를 엄청 많이 제시 : {SVM, XGBoost, LR} x {Product-based, User-based} = 총 6개 결과

- 평균 기준으로 Product-based를 보면, F1값은 LR(0.350) > SVM(0.339) > XGBoost (0.282)

- 평균 기준으로 User-based를 보면, F1값은 SVM(0.317) > LR(0.307) > XGBoost(0.279)

8) 3개의 가설을 세우고 추가 검증 진행

- 가설 1. 광고 노출 시간을 사용한 모델의 성과가 인구통계 정보를 사용한 모델의 성과와 다르게 나타난다.

- 가설 2. 인구통계 + 광고 노출 시간을 사용한 모델의 성과가 인구통계를 사용한 모델의 성과와 다르게 나타난다.

- 가설 3. 광고 노출시간을 사용한 모델의 성과가 인구통계 + 광고 노출시간 정보를 사용한 모델의 성과와 다르게 나타난다.

- 가설 검증 결과는 종속변수 유형, 카테고리, 모델 유형 등에 따라 제각각 나타남

9) 그래서 결과적으로 이 논문이 알아낸 것은 무엇이냐?

a. 가설 1과 가설 2, 가설 3의 검증결과로 볼 때, 광고 노출시간은 모델 성능 개선에 크게 도움을 주지 못하더라. (TV광고 효과가 별로 효과가 없었다)

b. 모델의 성능은 대체로 '인구통계'정보가 좌지우지했다 (예외도 있는데 Category1, Category 5 - 끈질기게 '구매 안한 사람들' 집단) : 광고 노출도, 인구통계 특징도 이들의 행동 변화를 이끌지 못했다

c. Primetime에 하는 TV광고도 특별히 효과가 더 있는 것은 아닌 것으로 나타났다.

10) 결과적으로 이 연구는 TV광고가 '매출 증대'라는 핵심 목표 달성에 실패하고 있음을 확인

a. TV광고에 일본 기업들이 매년 수조엔을 투입하고 있는데, 그 효과가 저조한 것으로 확인되었으므로 산업의 변화가 필요

저작자표시 비영리 변경금지

'CS > MachineLearning' 카테고리의 다른 글

딥러닝 유지 보수 과정 (0)	2022.05.05
XAI 설명가능한 인공지능, 인공지능을 해부하다 (0)	2022.04.28
Shapley Value (0)	2022.04.27
한번에 EDA 리포트 짱짱 pandas profiling 한글 폰트로 고통받는다면? (0)	2022.04.16
Must Have 머신러닝·딥러닝 문제해결 전략 (0)	2022.04.14

UGONG2SAN

인공지능세미나 9주차 강의 - 고객구매예측연구주제 탐색

1. 고객구매예측 개요

A. CRM 시대 도래 -> 캠페인 관리에 활용할 데이터 기반 모델 필요

B. 고객분류(Customer Classification)

C. 최근 논문 #1. EM(2018)

D. 논문#2. IEEEA(2019)

E. 논문 #3 . ECRA(2019)

F. 논문#4. KBS(2019)

G. 논문#5. IPM(2019)

'CS > MachineLearning' 카테고리의 다른 글

댓글

티스토리툴바

인공지능세미나 9주차 강의 - 고객구매예측연구주제 탐색

1. 고객구매예측 개요

A. CRM 시대 도래 -> 캠페인 관리에 활용할 데이터 기반 모델 필요

B. 고객분류(Customer Classification)

C. 최근 논문 #1. EM(2018)

D. 논문#2. IEEEA(2019)

E. 논문 #3 . ECRA(2019)

F. 논문#4. KBS(2019)

G. 논문#5. IPM(2019)

'CS > MachineLearning' 카테고리의 다른 글

관련글

댓글

티스토리툴바