본문 바로가기

통계7

메이저리그 야구 통계학 p.19~20 내셔널리그 투수들은 타서거에 들어서지만, 지명타자가 있는 아메리칸리그 투수들은 타석에 서지 않는다. 연구에 따르면 이러한 시스템의 차이는 아메리칸리그 투수들이 타자 몸 쪽으로 공을 붙이거나 위협구를 던지는 데 있어서 내셔널리그 투수들보다 느끼는 부담감이 적어, 자신 있게 몸 쪽 공을 뿌리는 투수들 때문에 아메리칸리그 타자들이 내셔널리그 타자들에 비해 볼에 더 맞는다고 한다. 가설을 테스트하기 위해 어떤 변수가 필요한가? 타자들이 시즌별로 얼마나 많은 볼에 맞았는지 보여주는 변수 하나만으로 리그별 비교가 가능한가? 그렇지 않다. 타자들의 소속 리그를 구분하는 변수가 있어야만, 몸에 맞는 볼이 어떤 리그의 소속의 선수에게서 발생했는지 구분하고 리그 간 비교를 할 수 있다. 그리고 빅데이터처럼 .. 2024. 1. 10.
데이터 과학을 위한 통계 p.19 1962년 존 투키는 [The Future of Data Analysis]라는 대표 논문에서 통계학의 개혁을 요구했다. 그는 통계적 추론을 하나의 구성 요소로 보는 데이터 분석(data analysis)이라는 새로운 과학적 학문을 제안했다. 투키는 통계를 공학과 컴퓨터 과학 분야에 접목하기 위해 끊임없이 노력했다 (그는 이진수를 뜻하는 '비트'라든가 '소프트웨어' 같은 용어를 만들기도 했다). 그리고 이런 그의 오랜 신념은 아직까지 이어져, 데이터 과학의 한 토대가 되었다. 탐색적 데이터 분석이란 분야는, 이미 고전이 된 투키의 1977년 책 [Exploratory Data Analysis](Pearson, 1977)를 통해 정립되었다. 투키는 요약통계량(summary statistics - 평.. 2023. 10. 21.
사회과학자를 위한 데이터과학 이제 책을 시작하지만... 서평의 프롤로그를 적을 수밖에 없다. 영원히 고통받는 케네스 로고프 교수... 노벨 경제학상 수상한 하버드 교수인 만큼 두고두고 (역사책에 기록될지도 모르겠다) 고통받으실거 같다. 밑줄긋기 p.14 레인하트와 로고프의 엑셀 조작 실수는 자료분석 환경의 변화에 제대로 적응하지 못한 연구자에게는 항존하는 위험이다. 만약 자료분석이 아래와 같은 루틴에서 벗어나지 않는 연구자라면 누구나 레인하트와 로고프가 범한 실수로부터 자유로울 수 없다고 봐야 한다. 오류 가능성이 높은 자료분석 루틴 1. 인터넷을 검색해서 자료를 다운로드한다. 2. 여러가지 자료를 엑셀 스프레드 시트 형식으로 모두 지정한 뒤 복사 - 붙여넣기로 하나의 시트에 모은다. 3. 엑셀의 함수 기능을 이용하여 자료 전처리를.. 2023. 9. 25.
불멸의 이론 p.5 "사실이 바뀌면 나는 내 의견을 바꿉니다. 당신은 어떻습니까?" - 존 메이너드 케인스 p.8~9 겉으로만 보자면 베이즈 정리는 딱 한 줄로 적을 수 있을 만큼 단순하기 짝이 없다. 어떤 대상에 대해서 가지고 있던 초기의 믿음을 객관적이고도 새로운 정보로 어버데이트할 때 보다 개선된 새로운 믿음을 확보할 수 있다는 게 그 내용이다. 베이즈 정리의 지지자들에게 이것은 경험을 통한 학습에 대한 하나의 우아한 진술이다. 여러 세대에 걸쳐서 이 정리가 가진 내면 논리의 마법에 빠진 사람들은 종교적인 체험과도 같은 어떤 경험을 했다. 하지만 베이즈 정리를 믿지 않는 사람들에게 이것은 그저 터무니없는 '내 마음대로'의 주관적인 규칙일 뿐이었다. 베이즈 정리는 1740년대 영국에서, '우리 주변 세상의 증거에.. 2023. 8. 19.
데이터는 어떻게 인생의 무기가 되는가 p.16~17 수학자이자 저술가인 크리스티안 러더는 데이트 앱인 오케이큐피드에서 데이트 신청을 많이 받는 사람들의 특징을 알아내기 위해 수천만 명의 데이터를 분석했다. 그 결과는 별로 놀랍지 않았다. 데이트 상대로 선호도가 가장 높은 사람들은 아름다운 외모를 가지고 태어난 사람들이었다. 세상의 모든 브래드 피트와 나탈리 포트먼들. 하지만 러더는 데이터 더미 속에서 신기하게도 선호도가 높은 다른 집단을 발견했다. 그들은 외모가 매우 특이했는데 예컨대 머리칼이 파란색이거나, 보디아트를 했거나, 독특한 안경을 썼거나, 머리를 빡빡 깎은 사람들이었다. 왜 그런 사람들이 인기가 많을까? 평범하지 않은 사람들이 데이트 신청을 많이 받은 가장 큰 이유는 대다수 사람이 그들에게 특별한 매력을 느끼지 않거나 그들이 매력.. 2023. 8. 15.
세상을 바라보는 힘 통계 안목 p.21~22 산술평균을 잘못 사용하는 경우도 많다. 가장 흔한 잘못은 기하평균을 사용해야 할 때 산술평균을 사용하는 일이다. "재작년에 우리 기업 매출이 20% 증가하고 작년에 5% 증가했으니까 최근 2년 간 우리 회사 매출은 평균 12.5% 증가했다"고 말하면 평균을 잘못 사용한 것이다. 증가율의 평균을 계산할 때는 반드시 산술평균이 아닌 기하평균을 사용해야 한다. 기하평균으로 구한 증가율은 12.2%다. 예를 들어 당신의 펀드 매니저가 "작년에 주식 수익률이 50%고 금년에는 마이너스 50%였으므로 2년 동안 평균 수익률은 0%입니다."라고 하면 이 또한 당신을 속인 것이다. 올바른 평균 수익률은 마이너스 13.4%다. 2023. 6. 26.