본문 바로가기
Growth/통계

벌거벗은 통계학

by Diligejy 2022. 7. 26.

p.47
이상적인 방법은 타율에 상응하거나, 혹은 더 나은 기술 통계를 찾아내는 것이다. 일반 미국 근로자들의 경제적 건전성이 최근 몇 년 사이에 어떻게 변했는지를 보여주는, 간단하지만 정확한 척도가 필요하다. 우리가 중산층으로 정의 내린 사람들은 부유해지고 있는가, 가난해지고 있는가, 아니면 제자리에 머무르고 있는가? '정답'이라 할 수는 없겠지만, 한 세대라 할 수 있는 약 30년 동안 미국의 1인당 국민소득이 변해온 모습을 살펴보는 것이 합리적인 답일 것이다. 1인당 국민소득은 총소득을 인구수로 나눈 단순 평균이다. 이렇게 계산하면 미국의 1인당 국민소득은 1980년 7,787달러에서 2010년 2만 6,487달러로 증가했다.

 

다만 한 가지 문제가 있다. 내가 순식간에 한 이 계산이 기술적으로는 정확해도, 내가 답하려 하는 질문에는 전혀 맞지 않다. 우선 위의 수치는 물가 상승을 감안하지 않았다. 1980년 1인당 국민소득 7,787달러는 2010년 가치로 환산하면 대략 1만 9,600달러이다. 설령 물가 상승을 감안한다 해도 근본적인 해결은 아니다. 더 큰 문제는 미국인의 평균 소득이 평균적인 미국인의 소득과 같지 않다는 점이다. 

 

p.48

야구에서 소득에 이르기까지 데이터를 다루는 데 있어 가장 기초적인 작업은 방대한 정보를 요약하는 일이다. 미국엔 약 3억 3,000명의 인구가 살고 있다. 모든 미국인의 이름과 소득 이력이 수록된 자료 파일에는 한 나라의 경제적 건전성에 대해 이제껏 우리가 알고자 했던 모든 정보가 담겨 있을 수도 있다. 하지만 방대하기만 하고 다듬어지지 않아서 우리에게 아무것도 알려주지 못할 것이다. 역설적으로 데이터가 많을수록 명료함은 떨어진다. 그래서 단순화가 필요하다.

 

p.57

뒤죽박죽으로 보이는 숫자들을 기술하는 또 다른 통계치가 표준편차(standard diviation)인데, 데이터가 평균에서 얼마나 흩어져 있는지를 나타내는 척도이다.

 

p.59

이러한 맥락에서 '지나치다'는 말의 뜻을 어떻게 받아들여야 할까? 이미 언급했듯이 표준편차는 분산도를 측정하는 것으로, 조사 대상이 평균 주위에 얼마나 빽뺵하게 모여 있는지를 나타낸다. 일반적 데이터 분포에서는 관찰값 대부분이 평균과 1표준편차 범위 내에 있다. 

'Growth > 통계' 카테고리의 다른 글

분산분석(ANOVA)의 직관적 이해  (0) 2022.07.29
몬티홀 문제 - 의사결정 모형  (0) 2022.07.28
p-value란 무엇인가  (0) 2022.07.25
데이터 해석학  (0) 2022.07.24
3일만에 끝내는 코딩 + 통계  (0) 2022.07.23

댓글