본문 바로가기
CS/MachineLearning

인공지능세미나 9주차 강의 - 고객구매예측연구주제 탐색

by Diligejy 2022. 4. 23.

https://www.youtube.com/watch?v=yVKSle9y_Ik 

 

1. 고객구매예측 개요

A. CRM 시대 도래 -> 캠페인 관리에 활용할 데이터 기반 모델 필요

    1) 고객과 관련된 다양하고 방대한 데이터가 축적되면서, 이 데이터를 활용하려는 시도가 강화되고 있음

    2) 특히 CRM 시대의 마케팅 활동 중 '캠페인 관리(Campaign Management)'가 있는데, 효과적인 캠페인 기획 및 운영을 위해서는 '캠페인 목적에 부합하는 적절한 대상자'를 선정하는 것이 중요

        - 캠페인(Campaign) : 교차판매, 이탈 고객의 재활성화 등과 같이 특정 목적을 가지고 정기적 혹은 비정기적으로 일정한 기간 동안에 일정한 조건에 부합하는 목표 고객들을 대상으로 펼쳐지는 1:1 커뮤니케이션 활동

        - 캠페인과 프로모션의 차이

            - 대상 : 구체적인 목표 고객 vs 불특정 다수

            - 목표 : 목표고객별 차별화된 목표 vs 일반적인 제품홍보 또는 판매촉진

B. 고객분류(Customer Classification)

 

주요 논문

 

C. 최근 논문 #1. EM(2018)

Zeng, M., Cao, H., Chen, M., & Li, Y. (2019). User behaviour modeling, recommendations, and purchase prediction during shopping festivals. Eletronic Markets, 29(2), 263-274

 

1) 2016년 광군절 기간(11월 11~13일)에 JD.com(징동닷컴) 구매에 참여한 고객들의 행동적 특징 분석, CF(협업 필터링) 기반 상품 추천, 그리고 구매 예측 

- 47,604 사용자의 236,809개 상품에 대한 581,430건의 쇼핑 행동 기록을 대상으로 분석

- 해당 기간 쇼핑에 참여한 사용자들의 행동 분석

2) 분석 대상 데이터를 기반으로 추천 모델 실험

- 구매 여부를 바탕으로 하여 User-Item Matrix 도출 -> 3,821 Users x 5,564 Items

    (그런데 이 중 구매(1)로 표기된 행렬항은 6,166개에 불과 : 심각한 희소성 문제(Sparsity Problem) 발생

- 희소성 문제를 해결하기 위해, '전이학습(transfer learning)'의 개념을 차용

    (특정 상품을 조회했거나, 카트에 상품을 담는 행동 정보까지도 고객의 향후 구매 행동을 예측할 때 사용

- 실험결과

3) 광군절 기간 동안 구매자와 비구매자 간 행동 차이를 분석하고, 구매예측을 위한 이분류 모델 구축

- 세션 내 클릭 횟수와 세션의 지속시간에 있어서, 구매자와 비구매자 간에 뚜렷한 차이가 있음을 확인

- 제품 카테고리별로 세션별 통계량(클릭횟수, 지속시간)을 이용해 Logit 모델 구축 (5-fold 교차 분석 수행)

    ( 그 결과 상당히 높은 수준의 ACU(Area Under ROC) 값이 산출됨)

D. 논문#2. IEEEA(2019)

Ling, C., Zhang, T., & Chen, Y. (2019). Customer purchase intent prediction under online multi-channel promotion : A feature-combined deep learning framework. IEEE Access, 7, 112963-112976

 

1) 최근 유행하는 다채널 판촉(multi-channel promotion) 환경에서 고객과 채널 간 인터랙션을 고려하여 구매 의도를 예측하는 FCD(Feature-Combined Deep Learning) 프레임워크 제안

 

E. 논문 #3 . ECRA(2019)

Mokryn, O., Bogina, V., & Kuflik, T. (2019). Will this session end with a purchase? Inferring current purchase intent of anonymous visitors. Eletronic Commerce Research and Applications, 34. 100836

-> 식별되지 않은 방문객 (anonymous visitors)의 구매 예측 연구

 

1) 대부분의 기존 연구는 알려진 고객(known customers)을 대상으로 수행. 하지만 비식별 방문자(anonymous visitors)가 로그인하지 않은 상태로 구매하는 경우도 상당히 많음 -> 기존 연구의 사각지대!

2) 비식별 방문객의 경우, 해당 방문객의 기존 쇼핑 이력이나 관심사 등을 사용 불가

3) 이에 본 연구에서는 제품들의 유행 트렌드 및 방문객의 임시 정보(temporal information)을 활용하여 비식별 방문객의 구매를 예측하고자 함.

4) 제안모형의 검증을 위해, 비식별 방문객의 클릭스트림 로그 정보를 포함하고 있는 2개의 공개 데이터셋을 사용

    (YooChoose RecSys 데이터셋 : 소비재를 판매하는 유럽의 대형 인터넷 쇼핑몰의 6개월치 클릭스트림 데이터)

    (Zalando 데이터셋 : 유럽의 대형 패션 쇼핑몰의 클릭스트림 데이터)

 

5) 구매로 이어진 세션보다 비구매로 끝난 세션이 월등하게 많음 : SMOTE 오버샘플링 기법을 적용

6) TD_S_k(t) 외에 아래 세션의 특징 변수들을 추가적인 독립변수로 활용 (Y: YooChoose, Z : Zalando)

- Month(Y) : 몇 월에 세션이 발생했나?

- Day of the week(Y) : 무슨 요일에 세션이 발생했나? (YooChoose의 경우, 일요일과 월요일에 구매 많았음)

- Dwell time(Y) : 얼마나 특정 페이지에 오래 머물렀나?

- Day number from the beginning of the dataset(Z) : 날짜가 따로 없는 Zalando의 경우, 시작부터 몇 번째 날인지로 구분

- Number of clicks in a session(Y, Z) : 세션 중 클릭된 횟수

 

7) 다양한 종류의 Classifiers 실험

- LR, Bagging, NBTree, XGBoost

 

8) 실험결과, Trendiness를 사용할 때 Time Windows에 관계없이 항상 더 나은 에측품질(F1)이 산출됨을 확인

F. 논문#4. KBS(2019)

Park, C., Kim. D., & Yu, H. (2019). An encoder-decoder switch network for purchase prediction. Knowledge-Based Systems, 185, 104932.

 

1) 본 연구의 배경

    a. 사람들은 보통 과거에 클릭했던 상품을 구매하는 경향이 있음

        - 데이터 분석 결과, Taobao의 경우 72%, Tmall의 경우 45%의 고객들이 과거에 클릭했던 제품을 나중에 와서 구매

    b. 보통의 경우, 가장 많이 클릭했던 상품이 최종적으로 구매되는 경향이 있음.

        - 저자들이 분석해보니 가장 많이 클릭된 상품으로 구매를 예측해보면, Recall이 68%나 나왔음 (즉, 전체 구매 상품의 68%는 이전에 가장 많이 조회한 상품이었다는 의미)

        - 이런 케이스를 저자들은 "duplicate" click session이라고 부름

    c. 하지만, 고객들 중에는 후보가 될 상품들을 1번씩만 클릭해서 조회한 후, 그 중에서 바로 구매할 상품을 낙점해 버리는 사람들도 있음

        - 이런 케이스를 저자들은 "non-duplicate" click session이라고 부름

2) PurchaseNet의 성능을 3개의 공개 데이터셋을 이용해 검증

    a. YooChoose, Xing, Taobao 데이터셋 사용 : 모두 공개 데이터셋

    b. 비교기법으로 itemKNN, MLP, CDAE, GRU4REC 등을 사용

    c. 성능은 Recall과 MRR을 사용

        - 기본적으로 이 예측 문제는 순위를 예측하는 것과 관련이 있기 때문

        - 예를 들어, 10개의 클릭된 아이템 중 2개가 구매되었다면, 알고리즘으로 Top 2의 구매 상품을 예측하는 방식으로 진행

G. 논문#5. IPM(2019)

 

Carreon, E. C. A., Nonoka, H., Hentona, A., & Yamashiro, H. (2019). Measuring the influence of mere exposure effect of TV commercial adverts on purchase behavior based on machine learning prediction models. Information Processing & Management, 56(4), 1339-1355

-> TV 상업 광고의 노출효과(mere exposure effect)가 있을까?"를 기계학습 예측 모델에 기반해 분석한 연구

 

1) 빅데이터 및 기계학습을 활용한 뉴미디어의 효과연구는 심심치 않게 이루어지고 있는 반면, 전통적 매체인 TV 광고 효과는 이러한 첨단 접근법이 잘 적용되지 않고 있음

2) 이에 본 연구에서는 노무라 연구소(Nomura Research Institute)에서 제공된 가구별 TV시청 및 개인 설문조사결과(3개월 간격으로 측정된 구매 의도와 실제 구매행동 정보 포함)를 활용하여, TV 광고 효과를 검증하고자 함.

3) 분석의 틀

    - 예측모델 유형 : 제품 중심 모델(product-based models) / 사용자 중심 모델(user-based models)

    - 종속변수 유형 : 구매 의도 / 실제 구매행동

    - 입력변수 유형 : 광고 시청시간만 사용 / 광고 시청시간 + 인구통계정보 (구매의도) / 인구통계정보만 사용 (구매 의도)

4) 적용된 기계학습 모델 : SVM, XGBoost, LR

5) 총 3,000명의 사용자가 광고를 시청한 36개 제품에 대해 분석

6) 실제 구매행동을 어떻게 보였는지에 따라 아래와 같이 6개 카테고리로 고객집단 구분

7) 실험결과를 엄청 많이 제시 : {SVM, XGBoost, LR}  x {Product-based, User-based} = 총 6개 결과

    - 평균 기준으로 Product-based를 보면, F1값은 LR(0.350) > SVM(0.339) > XGBoost (0.282)

    - 평균 기준으로 User-based를 보면, F1값은 SVM(0.317) > LR(0.307) > XGBoost(0.279)

 

8) 3개의 가설을 세우고 추가 검증 진행

    - 가설 1. 광고 노출 시간을 사용한 모델의 성과가 인구통계 정보를 사용한 모델의 성과와 다르게 나타난다.

    - 가설 2. 인구통계 + 광고 노출 시간을 사용한 모델의 성과가 인구통계를 사용한 모델의 성과와 다르게 나타난다.

    - 가설 3. 광고 노출시간을 사용한 모델의 성과가 인구통계 + 광고 노출시간 정보를 사용한 모델의 성과와 다르게 나타난다.

    - 가설 검증 결과는 종속변수 유형, 카테고리, 모델 유형 등에 따라 제각각 나타남

 

9) 그래서 결과적으로 이 논문이 알아낸 것은 무엇이냐?

    a. 가설 1과 가설 2, 가설 3의 검증결과로 볼 때, 광고 노출시간은 모델 성능 개선에 크게 도움을 주지 못하더라. (TV광고 효과가 별로 효과가 없었다)

    b. 모델의 성능은 대체로 '인구통계'정보가 좌지우지했다 (예외도 있는데 Category1, Category 5 - 끈질기게 '구매 안한 사람들' 집단) : 광고 노출도, 인구통계 특징도 이들의 행동 변화를 이끌지 못했다

    c. Primetime에 하는 TV광고도 특별히 효과가 더 있는 것은 아닌 것으로 나타났다.

 

10) 결과적으로 이 연구는 TV광고가 '매출 증대'라는 핵심 목표 달성에 실패하고 있음을 확인

    a. TV광고에 일본 기업들이 매년 수조엔을 투입하고 있는데, 그 효과가 저조한 것으로 확인되었으므로 산업의 변화가 필요

 

댓글