본문 바로가기
Growth/통계

[한국R 컨퍼런스] 이은조, 게임 데이터로 인과 추론 분석하기

by Diligejy 2022. 6. 29.

https://www.youtube.com/watch?v=sbUaqX4mX00&ab_channel=%ED%95%9C%EA%B5%ADR%EC%82%AC%EC%9A%A9%EC%9E%90%ED%9A%8C 

1. 인과추론이란?

a. X라는 사건이 Y라는 현상에 미치는 효과가 얼마나 되는지 통계적 가설 검정을 통해 분석하는 기법

    - 부모의 재산이 자식의 대학 진학률에 미치는 영향은?

    - 초콜릿을 먹으면 다이어트에 효과가 있는가?

    - 최저임금을 인상하면 실업률이 증가할까?

b. 인과추론이 필요한 이유 - A/B 테스트를 할 수 없는 상황이 많음

    - 시스템의 한계

    - 공정성 문제

    - 윤리적 이슈

c. 현업에서 인과추론 분석 예시

    - A 프로모션이 매출에 얼마나 효과가 있었나?

    - B 쿠폰을 사용한 고객의 서비스 이용 지표는 어떻게 달라졌나?

    - C 콘텐츠를 이용하는 고객은 그렇지 않은 고객보다 게임 플레이를 더 열심히 할까?

 

 

2. Case Study #1 - PK가 이탈율에 미치는 영향 분석

 

2-1 배경

a. PK의 명과 암

    - 긴장감을 주는 흥미로운 컨텐츠, 경쟁심과 성장 욕구 자극

    - PK의 폭력성, 저레벨 캐릭터 유입에 부정적 영향

b. PK를 당한 고객은 게임에서 이탈할까?

c. 만약 A/B 테스트를 한다면?

    - 전체 유저를 두 집단에 임의 할당 후 한 집단에 대해서만 PK 수행

    - PK를 강제하는 건 서비스 윤리에 위배되며 고객의 반발 불러옴

d. 인과추론을 한다면?

    - 이미 PK를 경험한 집단과 그렇지 않은 집단 샘플링

    - PK와 이탈 간의 인과적 관계 파악에 방해가 되는 요소들을 통제한 통계 모형 설계

2-2 단순비교로?

a. PK를 당한 집단과 미경험 집단의 이탈율 단순 비교

    - PK 경험 집단의 이탈율 : 11.9%

    - PK 미경험 집단의 이탈율 : 79.5%

b. PK는 고객의 이탈을 크게 낮추는 효과가 있다? -> NO

 

 

2-3 단순비교의 문제점

a. 단순 비교의 문제점 #1 - 역인과관계

    - 지역별 경찰관 수와 범죄율 사이의 관계 - 경찰관이 많이 배치될수록 범죄율이 높아진다?

    - 게임 플레이 시간이 높을수록 PK를 당할 확률이 높아짐

b. 단순 비교의 문제점 #2 - 교란 요인(Confounder)

    - 아이스크림 판매량과 물놀이 사고와의 관계 - 아이스크림 판매가 증가할수록 물놀이 사고가 증가한다?

    - 캐릭터 레벨이 PK와 이탈율에 모두 영향을 미칠 수 있음

c. 단순 비교의 문제점 #3 - 통계적 유의성

    - 이탈율 차이가 통계적으로 볼 때 충분히 크다고 볼 수 있는가?

    - 통계적 유의성 : 내가 관측한 집단 간의 평균차가 통계적으로 볼 때 충분히 의미가 있을만큼 큰가?

    - 충분한 의미가 있다? -> 다른 관측 데이터를 수집하여 분석했을 때도 일관된 결과가 나올 것으로 기대되는가?

 

2-4 해결을 어떻게 할 것인가

a. 역인과관계를 고려한 데이터 샘플링

    - PK 경험 집단을 최초 PK 당한 일자별로 분류 후,

    - 최소한 해당 일자까지 접속한 이력이 있는 PK 미경험 집단 샘플링

b. 역인과 효과 제거 전/후 PK 경험 집단과 미경험 집단 이탈율 차이 비교

    - 역인과 효과 제거 전 : 11.9% vs 79.5%

    - 역인과 효과 제거 후 : 13.9% vs 24.3%

 

c. 교란요인 제거를 위해 성향 점수 매칭(Propensity Score Matching, PSM) 기법 적용

    - 실험군 (PK 경험 집단) 과 대조군 (PK 미경험 집단)에 속한 개체들의 여러가지 특징 비교

    - 사전 조건이 비슷한 실험군/대조군 쌍을 선별하여 교란요인 통제

    - 과학 실험에서 실험 결과에 영향을 주는 환경 조건을 통제하는 작업과 비슷

2-5 결과

a. 회귀 분석을 통해 인과 효과 추정 및 통계적 유의성 확인

    - PK경험이 평균적으로 이탈율을 약 5% 낮추는 경향이 있음

 

3. Case Study #2 - 이벤트 쿠폰 효과 분석

3-1 배경

a. 출석 이벤트를 통해 28일 이상 게임에 출석한 고객에게 특별한 쿠폰을 지급하는 이벤트 수행

b. 해당 쿠폰이 이후 게임 플레이에 어떤 영향을 미쳤는지 효과 분석

 

3-2 단순비교

a. 쿠폰을 지급받은 고객의 이벤트 전/후 게임 플레이 변화를 단순 비교 분석할 경우 -> 일평균 플레이 시간 소폭 감소

    - 이벤트 쿠폰 효과는 부정적이다? -> NO

b. 다양한 요인으로 인한 영향력 통제 필요

    - 시계열 효과 및 다른 이벤트로 인한 영향 통제 -> DID(이중 차분)

    - 쿠폰 지급 고객 집단의 특성 통제 -> RD(회귀 단절)

 

3-3 이중차분(Difference in Difference, DID)

a. 이중차분 : 실험군과 대조군에 대해 각각 이벤트 전/후의 차이를 측정한 후 둘 간의 차이를 비교

b. 회귀분석에서 '상호작용 항(interaction term)'과 같은 개념

c. 이중차분 활용시 주의점

    - 실험군과 대조군이 주어진 사건을 제외하면 모두 동일한 특성을 갖고 있어야 함 (매칭 기법과 같이 사용하면 좋음)

 

3-4 회귀 단절 모형 (Regression Discontinuity Design, RDD)

a. 인과 효과 측정 대상이 되는 이벤트가 특정 변수(배정변수)에 의해 결정

    - 배정 변수가 효과 측정 대상이 되는 종속변수와 상관관계

b. 쿠폰 이벤트의 특징

    - 이벤트 기간동안 게임 접속 일수가 28일 이상 되어야 함

    - 게임 접속 일수는 플레이 시간 및 결제 금액과 상관성 높음

c. 명문대학 입학이 졸업 후 연봉에 미치는 영향은?

    - 입학 커트라인 근처의 합격자와 불합격자 연봉 비교

d. 쿠폰 이벤트가 플레이에 미치는 영향은?

    - 출석 일수 28일 근처의 쿠폰 지급자와 미지급자 비교

 

 

3-5  분석 결과 

a. 이중차분 : 기존 대비 일 평균 플레이 시간 및 결제 금액에서 모두 긍정적인 효과가 있었음

b. 회귀 단절 : 기존 대비 일 평균 플레이 시간 및 결제 금액에서 모두 긍정적 효과가 있었음

 

4. Summary & Conclusions

a. 인과추론은 현업에서 반드시 알아야 할 스킬이 되고 있음

    - A/B 테스트를 이용할 수 있는 상황은 제한적

    - 이벤트나 프로모션의 효과 분석시 상관을 인과로 오해하면 잘못된 결론 도출할 수 있음

b. 인과추론의 핵심은 적절한 대조군 선정과 모형 설계

    - 성향 점수 매칭(Propensity Score Matching, PSM)
    - 이중 차분 (Difference In Difference, DID)

    - 회귀 단절 모형 (Regression Discontinuity Design, RDD)

c. 인과 추론을 할 때는 재현성(Reproducibility) 을 항상 신경써야 함

    - 분석 결과를 섣불리 일반화해선 안됨

댓글