본문 바로가기
Growth/통계

스토리가 있는 통계학

by Diligejy 2023. 2. 3.

 

 

p.16

우리는 더 좋은 삶을 살기를 원한다. 그러기 위해서는 올바른 결정을 내려야 하며, 때로는 올바른 방식으로 수치적 자료를 보는 것이 도움이 되기도 한다.

 

p.21~22

통계에서 "작은 규칙"을 발견한 경우에 매우 조심해야 한다. 자료를 "공정하게 반영"하는 것이 통계를 사용하려는 유일한 이유는 아니다. 다른 하나는 계획을 세우고 결정하는 것이다. 식당 대신에 병원이 있고, 연봉 대신에 수술비 자료가 있다고 생각해 보자. 다음은 빌 게이츠 대신 수술 후 합병증을 앓고 있는 환자들의 수술비 자료이다. 수술비가 $250,000에 이른다. 

 

환자 수술비용
1 85,000
2 50,000
3 45,000
4 40,000
5 35,000
6 30,000
7 30,000
8 250,000

이 자료의 평균은 70,000이상이고, 중앙값은 빌 게이츠의 에제처럼 동일하며 42,500이다. 병원 관리자라면 어떤 숫자가 가장 중요할까? $42,500는 환자의 일반적인 치료비용에 대한 "공정한 반영"일 수도 있지만, 환자 당 $42,500의 비용을 가정해서 내년 예산을 쓰면 부족할 것으로 예상된다. 평균과 중앙값에 대해 생각하는 것은 건강보험에 가입하는 이유이기도 하고 자동차 여행 당 부상자의 중앙값은 0명 임에도 불구하고 안전벨트를 착용하는 이유이기도 하다. 

 

p.27

만약 정규분포에 맞지 않는다면, 표준편차를 어떻게 해야 할까? 빌 게이츠가 식당에 처음 들어왔을 때, 중심 측도로 평균 대신 중앙값을 사용할 수 있다고 말한 것을 기억하라. 중앙값과 함께 사용할 산포의 측도는, 표준편차가 아니라, 사분위수 범위라고 하는 것이다. 

 

p.37-38

가설검정에 "평균 자녀의 수 2.6명"을 어떻게 사용할 수 있을지는 명확하지 않다. 예를 들어, 여성들 자료를 가지고 있다고 생각해보자. 출산한 자녀 수와 주소 정보가 있다. "농촌 지역의 여성들이 도시에 사는 여성들보다 더 많은 아이를 출산한다."와 같은 가설을 검정하기 위해 평균 자녀의 수를 사용할 수 없다. 평균을 사용하는 통계적 검정은 이 자료가 많은 다른 값을 취할 수 있다는 것을 가정하기 때문이다. 즉, 통계학자들이 연속형(또는 양적) 변수라고 부르는 것이다. 키는 연속형 변수의 좋은 예다. 10살 소년의 키가 134cm 또는 157.48cm 또는 139.7cm 또는 그 사이의 어떤 값도 가능하다. 가족의 크기는 범주형 변수라고 불리는 것에 더 가깝다. 왜냐하면, 적어도 선진국에서는 거의 모든 가정이 0, 1, 2, 3, 4명의 자녀라는 제한된 숫자의 범위에 포함된다. 통계학자들은 가족 크기와 같은 범주형 변수에 연속형 변수를 위한 통계적 검정을 사용하는 것을 좋아하지 않는다.

 

게다가 "평균 자녀의 수 2.6명"은 여성들이 보통 얼마나 많은 자녀를 출산하는지 명확하게 알려주지 못한다. 대부분의 여성들이 2명 혹은 3명의 자녀를 출산하는 것처럼 들리지만, 전혀 그렇지 않을 수도 있다. 대부분의 여성들은 1명 혹은 2명의 자녀를 출산하고, 몇몇 여성들만 아주 많은 자녀를 출산한다. 이것은 자료를 기술하는 데 단 하나의 숫자만으로는 힘들며, 더 구체적으로 말하면, 평균 추정치와 함께 산포 추정치를 보고해야 한다는 것을 알려주는 예다. 문제는 평균과 관련된 산포 측도가 표준편차라는 점이며, 자료가 한쪽으로 치우치면 이는 거의 의미가 없다. 

 

p.48

부모의 가장 큰 도전 중 하나는, 아이와 함께 하는 게임에서 어떻게 하면 자연스럽게 지는 지 아는 것이다. 어떻게 하면 부정행위 없이 아들이 주사위 보드 게임에서 이기게 할 수 있을까? 

 

p.53

많은 우연한 사건들의 합인 정규분포는 흔히 세상에서 관찰하는 자연적 변동 뿐만 아니라 연구 결과의 가설적 변동을 설명하는데도 사용될 수 있다. 게다가, 정규분포는 다른 유형의 IQ 테스트를 받은 사람들 사이의 테스트 점수 에시처럼 결과 상 차이가 있는지 확인하는 경우나, 남성의 평균 머리 길이 추정치를 만드는 경우에도 작용된다. 이것은 자료를 기술하기 위해서, 혹은 실험 결과가 의미가 있는 것인지 알아내기 위해서 정규분포 공식을 사용할 수 있다는 것을 의미한다. 

 

p.56

의학 연구는 전형적으로 어떤 종류의 질병을 가진 환자들을 연구하는 것이다. 이 개체군들은 정상적이지 않다. 그들의 몸에 뭔가 문제가 있기 때문에 그들은 치료를 받아야 한다. 아마도 이것이 의학에서 정규분포의 희귀성에 대한 교수님의 발언의 배후에 있는 것일 것이다. 의학에서는 정규분포를 거의 볼 수 없다. 왜냐하면 "정상적인" 인구 전체를 거의 연구하지 않고 단지 특정 부분만 연구하기 때문이다.

 

p.62

정규성을 가정하는 통게적 절차를 사용하는 것이 합당할 수 있도록 데이터 집합이 정규분포에 충분히 가까운지 여부를 결정하는 명확한 규칙은 없다. 궁극적으로, 그것은 그 방법이 "충분히 좋은" 근사치를 제공하는지에 대한 개인적인 판단이다.

 

p.74

신뢰구간은 실험 결과를 해석하는 데 유용하다. 예를 들어, "멘토링" 프로그램이 SAT점수에 영향을 미쳤는지에 대한 연구를 검토하고 있다고 상상해 보라. 멘토링은 SAT점수가 4점 정도 증가하는 것과 관련이 있으며 95% 신뢰구간이 (-2, 10)이라는 것을 알게 되었다. 참고로, 95% 신뢰구간을 대체로 사용한다. 분명한 점은 멘토링이 실제로 상황을 악화시킬 수 있는 가능성도 가지고 있다. SAT 점수가 -2가 된다는 것은 점수가 2점 감소한다는 의미다. 그래서 학교가 멘토링 프로그램을 시행하는 것을 추천하지 않을 것이다. 또 특정 멘토링 접근방식에 대해 더 이상 연구가 수행되어서는 안된다고 권고할 수도 있다. 이 신뢰구간은 멘토링으로 SAT 점수가 10점 이상 향상될 가능성이 없다는 것을 말해준다. 10점은 1600점 만점의 점수를 받는 시험에서는 작은 향상일 뿐이다. 이 멘토링 프로그램을 적용한 새로운 학교 프로그램을 시작하기에도 적당하지 않음을 말해준다. 반면에 신뢰구간이 54까지라면, 우리는 비록 멘토링이 효과적이라는 것에 대한 명백한 증거를 가지고 있지 않지만, 효과적일 것이라고 추가적인 연구를 고려해야 함을 결론내릴 수도 있다.

댓글