본문 바로가기
Growth/통계

A/B 테스트 - 신뢰할 수 있는 온라인 종합 대조 실험

by Diligejy 2023. 10. 13.

https://link.coupang.com/a/bcwWNQ

 

A/B 테스트

COUPANG

www.coupang.com

 

 

 

p.15

숫자를 얻는 것은 쉽다. 하지만 믿을 수 있는 숫자를 얻는 것은 어렵다.

 

p.16

AB 테스트의 기능 중 가장 중요한 것은 한꺼번에 모든 것을 테스트하는 것이 아니라 조금씩 테스트하는 것이다. 통제된 상황에서 이를 실행하는데, 이는 온라인상의 통제이므로 실제 상황을 반영하는 통제이다. 따라서 연관분석(예를 들어 장바구니 분석)에서와 같이 상관관계를 발견하는 것을 넘어서 원인과 결과를 밝히는 설명력이 가능한 인과성을 발견하고자 하는 것이 주도니 목적이다. (그래서 그 테스트 대상은 작은 무엇인가가 될 것이다.) 이러한 발견은 보다 설명력이 있기 때문에  테스트의 승자가 상품 또는 서비스의 개선을 위해 큰 신뢰도로 강건하게 도입될 수 있는 것이다.

 

p.25

우리 모두는 실험 결과의 신뢰도를 평가할 필요가 있다고 생각한다. 또한 트위먼(Twyman)의 법칙이 암시하는 회의론을 믿는다. 흥미로워 보이거나 다르게 보이는 어떤 수치는 대체로 틀린다. 독자들이 다시 한 번 결과를 확인하고, 특히 획기적이고 긍정적인 결과를 위해 유효성 검사를 실행할 것을 권한다. 숫자를 얻는 것은 쉽지만, 믿을 수 있는 숫자를 얻는 것은 어렵다!

 

p.36-37

적절한 무작위 추출이 중요하다. 실험 설계가 각 변형군에 동일한 비율의 사용자를 할당하는 경우, 각 사용자는 각 변형군에 할당될 확률이 같아야 한다. 무작위 추출을 가볍게 생각하지 말자. 다음 소개하는 예시는 적절한 무작위 추출의 어려운 점과 중요성을 보여준다. 

 

- 랜드 법인은 1940년대 몬테카를로 방식의 난수가 필요했기 때문에 맥박 기계를 이용해 생성된 백만 개의 난수를 책으로 만들었다. 그러나 하드웨어의 편향(bias)으로 인해 원래 표에는 현저한 편향이 있었고, 새로 펴낸 책에서 숫자를 다시 무작위 추출해야 했다. (RAND 1955).

 

- 종합 대조 실험은 처음에 의료 분야에서 사용됐다. 미국 재향군인청(VA)이 결핵에 대한 스트렙토마이신(streptomycin) 실험(제약 실험)을 실시했으나 의사들이 내과적으로 편견을 갖고 선발 과정에 개입했기 때문에 실험은 실패했다(Marks 1997년). 영국에서 유사한 실험이 블라인드 프로토콜로 행해졌는데 이는 성공했으며, 종합 대조 실험의 역사에서 분수령이 되는 순간(watershed moment)을 만들었다(Doll 1998).

 

어떠한 요인도 변형군 배정에 영향을 주도록 허용해서는 안 된다. 사용자(실험단위)는 "무작위 추출이 아닌 어떠한 방식"으로도 편향이 없는 분포로 할당될 수 없다(Weiss 1997). 랜덤성은 "마구잡이식이거나 계획되지 않은" 것이 아니라, "확률에 기초한 의도적인 선택"을 의미한다는 점에 유의해야 한다(Mosteller, Gilbert, McPeek 1983). 

 

 

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

'Growth > 통계' 카테고리의 다른 글

데이터 과학을 위한 통계  (1) 2023.10.21
사례분석으로 배우는 데이터 시각화  (1) 2023.10.19
사회과학자를 위한 데이터과학  (0) 2023.09.25
불멸의 이론  (2) 2023.08.19
의료인을 위한 R생존분석  (0) 2023.08.10

댓글