1. 인과추론이란?
a. X라는 사건이 Y라는 현상에 미치는 효과가 얼마나 되는지 통계적 가설 검정을 통해 분석하는 기법
- 부모의 재산이 자식의 대학 진학률에 미치는 영향은?
- 초콜릿을 먹으면 다이어트에 효과가 있는가?
- 최저임금을 인상하면 실업률이 증가할까?
b. 인과추론이 필요한 이유 - A/B 테스트를 할 수 없는 상황이 많음
- 시스템의 한계
- 공정성 문제
- 윤리적 이슈
c. 현업에서 인과추론 분석 예시
- A 프로모션이 매출에 얼마나 효과가 있었나?
- B 쿠폰을 사용한 고객의 서비스 이용 지표는 어떻게 달라졌나?
- C 콘텐츠를 이용하는 고객은 그렇지 않은 고객보다 게임 플레이를 더 열심히 할까?
2. Case Study #1 - PK가 이탈율에 미치는 영향 분석
2-1 배경
a. PK의 명과 암
- 긴장감을 주는 흥미로운 컨텐츠, 경쟁심과 성장 욕구 자극
- PK의 폭력성, 저레벨 캐릭터 유입에 부정적 영향
b. PK를 당한 고객은 게임에서 이탈할까?
c. 만약 A/B 테스트를 한다면?
- 전체 유저를 두 집단에 임의 할당 후 한 집단에 대해서만 PK 수행
- PK를 강제하는 건 서비스 윤리에 위배되며 고객의 반발 불러옴
d. 인과추론을 한다면?
- 이미 PK를 경험한 집단과 그렇지 않은 집단 샘플링
- PK와 이탈 간의 인과적 관계 파악에 방해가 되는 요소들을 통제한 통계 모형 설계
2-2 단순비교로?
a. PK를 당한 집단과 미경험 집단의 이탈율 단순 비교
- PK 경험 집단의 이탈율 : 11.9%
- PK 미경험 집단의 이탈율 : 79.5%
b. PK는 고객의 이탈을 크게 낮추는 효과가 있다? -> NO
2-3 단순비교의 문제점
a. 단순 비교의 문제점 #1 - 역인과관계
- 지역별 경찰관 수와 범죄율 사이의 관계 - 경찰관이 많이 배치될수록 범죄율이 높아진다?
- 게임 플레이 시간이 높을수록 PK를 당할 확률이 높아짐
b. 단순 비교의 문제점 #2 - 교란 요인(Confounder)
- 아이스크림 판매량과 물놀이 사고와의 관계 - 아이스크림 판매가 증가할수록 물놀이 사고가 증가한다?
- 캐릭터 레벨이 PK와 이탈율에 모두 영향을 미칠 수 있음
c. 단순 비교의 문제점 #3 - 통계적 유의성
- 이탈율 차이가 통계적으로 볼 때 충분히 크다고 볼 수 있는가?
- 통계적 유의성 : 내가 관측한 집단 간의 평균차가 통계적으로 볼 때 충분히 의미가 있을만큼 큰가?
- 충분한 의미가 있다? -> 다른 관측 데이터를 수집하여 분석했을 때도 일관된 결과가 나올 것으로 기대되는가?
2-4 해결을 어떻게 할 것인가
a. 역인과관계를 고려한 데이터 샘플링
- PK 경험 집단을 최초 PK 당한 일자별로 분류 후,
- 최소한 해당 일자까지 접속한 이력이 있는 PK 미경험 집단 샘플링
b. 역인과 효과 제거 전/후 PK 경험 집단과 미경험 집단 이탈율 차이 비교
- 역인과 효과 제거 전 : 11.9% vs 79.5%
- 역인과 효과 제거 후 : 13.9% vs 24.3%
c. 교란요인 제거를 위해 성향 점수 매칭(Propensity Score Matching, PSM) 기법 적용
- 실험군 (PK 경험 집단) 과 대조군 (PK 미경험 집단)에 속한 개체들의 여러가지 특징 비교
- 사전 조건이 비슷한 실험군/대조군 쌍을 선별하여 교란요인 통제
- 과학 실험에서 실험 결과에 영향을 주는 환경 조건을 통제하는 작업과 비슷
2-5 결과
a. 회귀 분석을 통해 인과 효과 추정 및 통계적 유의성 확인
- PK경험이 평균적으로 이탈율을 약 5% 낮추는 경향이 있음
3. Case Study #2 - 이벤트 쿠폰 효과 분석
3-1 배경
a. 출석 이벤트를 통해 28일 이상 게임에 출석한 고객에게 특별한 쿠폰을 지급하는 이벤트 수행
b. 해당 쿠폰이 이후 게임 플레이에 어떤 영향을 미쳤는지 효과 분석
3-2 단순비교
a. 쿠폰을 지급받은 고객의 이벤트 전/후 게임 플레이 변화를 단순 비교 분석할 경우 -> 일평균 플레이 시간 소폭 감소
- 이벤트 쿠폰 효과는 부정적이다? -> NO
b. 다양한 요인으로 인한 영향력 통제 필요
- 시계열 효과 및 다른 이벤트로 인한 영향 통제 -> DID(이중 차분)
- 쿠폰 지급 고객 집단의 특성 통제 -> RD(회귀 단절)
3-3 이중차분(Difference in Difference, DID)
a. 이중차분 : 실험군과 대조군에 대해 각각 이벤트 전/후의 차이를 측정한 후 둘 간의 차이를 비교
b. 회귀분석에서 '상호작용 항(interaction term)'과 같은 개념
c. 이중차분 활용시 주의점
- 실험군과 대조군이 주어진 사건을 제외하면 모두 동일한 특성을 갖고 있어야 함 (매칭 기법과 같이 사용하면 좋음)
3-4 회귀 단절 모형 (Regression Discontinuity Design, RDD)
a. 인과 효과 측정 대상이 되는 이벤트가 특정 변수(배정변수)에 의해 결정
- 배정 변수가 효과 측정 대상이 되는 종속변수와 상관관계
b. 쿠폰 이벤트의 특징
- 이벤트 기간동안 게임 접속 일수가 28일 이상 되어야 함
- 게임 접속 일수는 플레이 시간 및 결제 금액과 상관성 높음
c. 명문대학 입학이 졸업 후 연봉에 미치는 영향은?
- 입학 커트라인 근처의 합격자와 불합격자 연봉 비교
d. 쿠폰 이벤트가 플레이에 미치는 영향은?
- 출석 일수 28일 근처의 쿠폰 지급자와 미지급자 비교
3-5 분석 결과
a. 이중차분 : 기존 대비 일 평균 플레이 시간 및 결제 금액에서 모두 긍정적인 효과가 있었음
b. 회귀 단절 : 기존 대비 일 평균 플레이 시간 및 결제 금액에서 모두 긍정적 효과가 있었음
4. Summary & Conclusions
a. 인과추론은 현업에서 반드시 알아야 할 스킬이 되고 있음
- A/B 테스트를 이용할 수 있는 상황은 제한적
- 이벤트나 프로모션의 효과 분석시 상관을 인과로 오해하면 잘못된 결론 도출할 수 있음
b. 인과추론의 핵심은 적절한 대조군 선정과 모형 설계
- 성향 점수 매칭(Propensity Score Matching, PSM)
- 이중 차분 (Difference In Difference, DID)
- 회귀 단절 모형 (Regression Discontinuity Design, RDD)
c. 인과 추론을 할 때는 재현성(Reproducibility) 을 항상 신경써야 함
- 분석 결과를 섣불리 일반화해선 안됨
'Growth > 통계' 카테고리의 다른 글
Predicting Customer Lifetime Value with “Buy ‘Til You Die” probabilistic models in Python (0) | 2022.07.11 |
---|---|
벅슨의 역설 (0) | 2022.07.09 |
빠르게 포트폴리오 구축하고 싶다면 - 공공데이터로 배우는 R데이터분석 (0) | 2022.06.10 |
Introduction to Basic Statistics in Python Ch1 (0) | 2022.05.05 |
[회귀분석의 이해] 제 1강 (회귀분석개론) (0) | 2022.05.03 |
댓글