본문 바로가기
Growth/통계

데이터 해석학

by Diligejy 2022. 7. 24.

p.6

데이터 분석은 관측한 데이터를 쉽게 이용할 수 있게 변환하는 작업이므로 수집한 데이터의 품질이 분석 결과에 그대로 반영됩니다. 그러나 데이터는 관측할 때 왜곡되므로 이 왜곡을 제거하거나 보정하는 작업이 아주 중요합니다. 전문가조차 이 편향을 눈치채지 못한 채 잘못된 결론을 내려서 큰 실패를 하는 경우도 아주 많습니다. 특히 해석 방법이 정립되지 않은 새로운 문제나 데이터는 세심한 주의를 기울여도 쉽게 잘못된 결론을 낼 수 있으므로 주의해야 합니다.

 

p.9

측정이라는 조작으로 무엇인가를 정의하는 것을 조작적 정의(Operational definition)라고 합니다. 구체적으로 어떤 정의를 선택해야 하는지는 데이터 분석의 목적에 따라 달라집니다.

 

조작적 정의에 의한 데이터 관측은 어디까지나 대상의 '측정할 수 있는 한 가지 측면'만을 반영한 것에 지나지 않음에 주의해야 합니다. 이때 반드시 일부 정보가 사라지게 되지만 측정한 지표에만 너무 집착한 나머지 본질을 놓칠 수 있습니다. 예를 들어 COVID-19의 신규 확진자 수가 매일 뉴스에 나오지만, 이 숫자만으로 국내 감염의 상태를 정확하게 파악하기는 어렵습니다 (매일 변화하는 검사 방법에 따라 숫자가 변하고, 아직 발병하지 않은 잠재적인 환자의 수를 파악하는 것도 필요합니다). 그러나 신규 확진자 수가 모든 상황을 대표한다고 해석해버리는 사람도 많습니다.

 

p.18

데이터의 변동의 특징을 파악하기 위한 첫 단계로는 어떤 확률분포가 존재한다고 가정하고, 실제 데이터는 이 확률분포로부터 확률적으로 얻었다고 생각하는 것입니다. '확률적으로 얻어졌다'라는 것은 어떤 것일까요. 이것은 주사위를 던져서 나온 숫자를 관측하는 것을 생각하면 이해하기 쉬울 것입니다. 다시 말해서 주사위를 던져서 숫자를 하나 얻는 것처럼 확률분포를 하나 지정하고 거기에서 값을 하나 무작위로 추출하는 것입니다. 이렇게 무작위로 얻어진 값을 가지는 변수를 확률변수(random variable)라고 합니다. 실제 데이터가 이렇게 얻어졌다고 가정하고 배후에 있는 확률분포를 조사하면 우연오차에 대한 정보를 어느 정도 알 수 있기 때문입니다.

 

여기서 잊지 않았으면 하는 것이, 실제 우연오차가 어떤 메커니즘으로 발생하느냐는 것입니다. 디지털 체중계의 경우에서 동일한 사람을 측정할 때, 매번 자세가 미묘하게 다르거나 기온이나 건전지의 남은 양에 의해 전자회로의 상태가 바뀔지도 모릅니다. 이렇게 측정할 때 통제할 수 없는 여러 요인의 변화가 변동의 원인이 되는 것이지, 체중계의 회로 속에 이런 확률분포가 설정된 것은 아닙니다. 다시 말해서 여기서는 여러 가지 요인에 의한 변동을 확률분포로 가정한다는 것입니다.

 

p.21

확률분포란 모든 사건이 발생할 확률을 기술한 것을 가리킵니다. 예를 들면 '주사위의 각 숫자가 나올 확률은 모두 1/6이다'라고 기술한다면, 이것은 주사위의 확률분포가 됩니다. 데이터 X가 얻어질 확률을 기호 P(X)로 씁니다. 이것을 '확률변수 X는 확률분포 P(X)를 따른다'라고 표현하기도 합니다.

 

p.23

확률분포에서 함수의 형태를 결정하는 값을 매개변수(parameter)라고 합니다. 

 

p.25

많은 경우 확률변수의 값을 더해가면 그 합의 확률분포는 정규분포에 가까워집니다. 이것을 중심극한정리(Central Limit Theorem)라고 합니다. 다시 말해서 여러 가지 랜덤한 요소가 서로 더해지면 자연스럽게 정규분포가 발생한다는 것입니다. 이것이 정규분포가 다양한 분야에서 등장하는 이유입니다.

 

p.28

우연오차에 대한 가장 기본적인 처리 방법은 관측값들의 평균을 계산하는 것입니다. 우연오차는 평균 0의 분포로 가정할 수 있습니다. 여기서 편향은 무시할 수 있는 것으로 생각합니다. 계측값은 '참값에 확률분포에서 생성된 우연한 값이 오차로 더해진 것'으로 간주합니다. 이 값들의 평균을 계산해 봅시다. 여러 번의 관측으로 얻어진 값의 평균을 표본 평균(sample mean)이라고 합니다. 각 관측값에서 참값은 일정하고 변화하지 않으므로, 이런 평균화 조작을 하면 참값에 '우연오차의 평균'을 더한 것이 얻어집니다. 이 평균화된 우연오차는 각 우연오차의 편차보다 작은 편차를 가집니다. 다시 말해서 여러 번 측정하고 표본평균을 구하는 과정을 1번 측정한 것으로 한다면, 참값으로부터 오차의 크기를 억제할 수 있다는 것입니다.

 

어떤 측정에서 우연오차의 값이 다른 측정에서의 우연오차의 값에 영향을 미치지 않을 때, n번의 측정 결과를 평균한 표본평균의 편차(표준편차)는 원래 우연오차의 편차 1/root(n)배까지 작아집니다. 따라서 측정의 횟수를 늘리면, 표본평균은 참값에 점점 가까워집니다. 이것을 대수의 법칙이라고 합니다.

 

p.29~31

통계해석을 이용한 접근에서는 데이터의 편차와 가정된 확률분포를 이용해서 여러 가지 추론을 실시합니다. 예를 들어서 새로 개발한 신약의 효과를 평가한다고 합시다. 시험 초기 단계에서는 제한된 인원의 피험자에게 투약한 결과에서 신약의 효과를 찾아야 합니다. 효과의 발현은 개인에 따라 다릅니다. 피험자 20인에게 위약을 투여하고 다른 피험자 20명에게 신약을 투여한 결과, 위약은 10명, 신약은 13명에게 개선 효과를 보였다고 합시다. 신약 쪽이 효과가 있는 것철머 보이지만, 같은 실험을 다른 피험자에게 했을 경우 다른 결과를 얻을 수도 있습니다. 통계해석에서는 이 편차의 배후에 있는 확률분포를 가정함으로써 결과의 차이가 우연히 생긴 것인지, 아니면 우연으로는 설명이 안 되는 본질적인 차이가 있는 것인지를 확률적으로 평가할 수 있습니다. 

 

앞의 치료 시험의 에에서는 약에 효과가 있는지를 잘 모르겠다고 하는 사람이 많지 않을까요. 이번에는 같은 실험을 20,000명의 피험자에게 했다고 합시다. 이 실험에서 약의 효과를 본 사람은 위약 10,000명, 신약 13,000명이었습니다. 신약 쪽이 위약보다 1.3배의 효과가 보이는 것은 변함없지만, 이번에는 '양쪽에 차이가 없지만, 우연히 이런 차이가 생겼다'라고 생각하지는 않습니다. 아마도 같은 실험을 또 한 번 해도 각 그룹에서 효과를 보이는 피험자의 비율이 크게 바뀌지 않을 것입니다. 이것은 데이터의 수를 늘림으로써 비율의 편차가 작아지기 때문입니다.

 

지금까지 살펴본 것처럼 편차가 작은 쪽이 데이터로 다루기 쉬우며, 이것은 데이터 분석에서 어떤 양에 주목하면 좋을지를 생각할 때 중요한 관점입니다. 메이저리그에서는 세이버메트릭스라고 부르는 통계 방법으로 선수의 능력을 정량적으로 평가하는 기술이 발전하고 있습니다. 예를 들어서 투수의 승리 수는 일반적으로는 중요시되는 지표지만 선수의 능력은 잘 반영하지 않는다고 알려져 있습니다. 이것은 같은 피칭 능력을 보여도 그날 승패는 다른 요인에 크게 영향을 받는 다는 것, 또 한 시즌에서 선발투수로서의 등판 횟수는 많아도 30 시합 정도이므로 전체 승리 수로 봐도 편차가 커지기 때문입니다. 반면에 예를 들어 탈삼진 수는 그 선수의 실력을 직접 반영하기 쉽고 전체 숫자로 많으므로 신뢰할 수 있는 지표로 이용됩니다.

 

이렇게 가능한 한 다른 요인에 영향을 받지 않으면서 편차가 적은 지표에 주목하고 그렇지 않은 지표는 가능한 피하는 것이 정확도 높은 분석으로 연결됩니다.

 

p.34

언뜻 봐서는 애매함의 여지가 없는 측정기준을 사용하더라도 같은 것이 측정되지 않는 일이 종종 발생합니다. 특히 제도가 다른 나라와의 국제비교 등에서 주의해야 합니다. 스스로 데이터를 수집하는 경우는 이런 기준의 일관성이 유지되지 않는 것을 깨닫기는 쉽지만, 다른 사람의 손으로 정리된 데이터에서는 대단히 놓치기 쉽습니다. 항상 측정기준을 확인하는 습관을 들여야 합니다.

 

p.37

데이터를 관측할 때 조심하지 않으면 데이터에는 항상 편향이 포함된다고 생각하는 것이 좋습니다. 예를 들어 비즈니스 분야에서는 확보하고 싶은 잠재고객의 데이터는 손에 넣기 어렵지만 이미 자사 제품이나 서비스를 구입한 고객의 데이터는 비교적 손에 넣기 쉽습니다. 그러나 기존 고객과 타깃이 되는 잠재고객은 관심이나 요구가 다를지도 모릅니다. 그렇기 때문에 가지고 있는 데이터만으로 어떤 추론을 해도 그것을 그대로 적용할 수 있다고는 할 수 없습니다.

 

p.51~52

직접적인 인과관계는 아니지만, 간접적으로 인과관계가 있는 경우를 생각해봅시다. '무기 연고'라는 것이 있습니다. 16~17세기경에 유럽에서 믿고 있던 치료법으로 전쟁에서 상처를 입었을 때 상처가 아닌 무기에(!) 연고를 바르는 것으로 상처의 치유가 빨라진다는 것입니다.

 

실제로 여기에는 과학적인 근거가 있다고 알려져 있습니다. 당시의 약은 위생 상태가 나쁘거나 인체에 유해한 물질이 포함되어 있는 경우가 많았기 때문에 약으로 상처를 악화시키는 것보다 무기에 연고를 바르고 상처에는 아무것도 안 하는 쪽이 오히려 빨리 치료되었다는 것입니다. 무기에 연고를 발라도 상처에는 아무 효과도 없지만, 상처에 연고를 바르지 않는 효과가 있어 간접적인 인과관계가 됩니다. '무기에 연고를 바르면 불가사의한 힘이 움직인다'라는 당시 사람들의 해석은 틀렸지만 인과관계는 존재하므로 이러한 개입(무기연고를 바른다 / 바르지 않는다)으로 결과의 변수(낫기 쉬움)에 영향을 미칠 수 있습니다. 

 

p.55

무작위 배정 임상시험(RCT : Randomized Controlled Trial)은 인과효과를 정확하게 평가하기 위해 사용되는 대표적인 방법입니다. 이 방법의 목표는 대상 그룹을 분석해서 관심 있는 변수의 평균적인 효과(이것을 평균 처치 효과 : Average Treatment Effect, ATE라고 합니다)를 평가하는 것입니다. 약을 예로 들면 피험자 그룹의 절반에 신약을 투여하고, 나머지 절반에 위약을 투여해서 그 결과를 관찰합니다. 만약 신약이 위약보다 효과가 있다면, 신약을 투여한 그룹 쪽에 많은 피험자가 치유될 것입니다. 신약을 투여한 그룹을 처치군(Treatment Group) 또는 실험군(Experimental Group)이라고 하고 비교를 위해 위약을 투여한 그룹을 대조군 또는 제어군(Control Group)이라고 합니다.

 

그리고 중요한 것이 피험자를 두 개의 그룹으로 나눌 때 개인들을 무작위로 할당하는 것입니다. 피험자 중에는 약이 잘 듣는 사람도 있고 듣지 않는 사람도 있으므로 이렇게 하면 편차를 없앨 수 있습니다. 이 방법은 연구할 때의 기본 개념이므로 임상의학뿐만 아니라 심리학, 생물학, 계량 통계학과 같은 여러 가지 분야에서 넓게 사용됩니다. 또 웹 마케팅 쪽에서는 두 개 (또는 그 이상)의 웹페이지의 디자인을 만들어 두고 방문자를 무작위로 할당해서 행동을 관찰하는 A/B테스트라는 것도 있습니다.

 

p.61

처치의 할당을 무작위로 하는 것이 무작위 배정 임상시험이었지만, 실제로는 특정 기준에 따라 처치가 할당되어 순수하게 처치 효과를 평가할 수 없는 경우가 있습니다. 예를 들어 자사 서비스의 매출을 늘리려고 어떤 해의 연간 이용액이 일정액을 넘은 헤비 유저에게 쿠폰을 나눠주는 경우를 생각해봅시다. 다음 해는 그 쿠폰에 의해 이용액이 늘어날까요? 쿠폰을 받은 사람과 받지 못한 사람은 자사 서비스 이용액이라는 중요한 요인이 다르므로, 쿠폰의 효과를 평가하기 위해서 단순히 두 그룹의 서비스의 이용량만을 비교해도 의미가 없습니다. 이런 경우에 사용하는 것이 회귀불연속설계(Regression Discontinuity Design, RDD)입니다.

 

이 방법에서는 가로축에 처치 여부를 결정하는 변수, 세로축에 효과를 측정하고 싶은 목적이 되는 변수를 그린 그래프를 이용합니다. 이번 예에서는 작년에 천만 원 이상 이용한 고객에게 쿠폰을 주었다고 합시다. 그래프의 가로축은 어떤 해의 서비스 이용 금액, 세로 축은 다음 해의 이용 금액입니다. 그러면 그래프의 오른쪽에는 쿠폰을 받은 고객의 데이터가, 왼쪽에는 받지 못한 고객의 데이터가 모이게 됩니다. 각각에 대해서 회귀를 실시합니다. 쿠폰 배포 기준인 천만원 근처를 살펴보면 서비스 이용액이 대체로 비슷함에도 불구하고, 쿠폰을 받은 고객과 받지 않은 고객이 모여있게 됩니다. 만약, 두 개의 회귀의 결과로 그 부분에서 차이가 존재한다면 그것은 쿠폰의 효과라고 생각할 수 있습니다.

댓글