p.11
필자는 데이터 과학자 채용 면접관으로 활동하면서 정교한 머신러닝 알고리즘을 다룰 줄 알지만 데이터에 대한 감각은 부족한 지원자를 많이 보았습니다. 이러한 지원자는 알고리즘이 알려주는 사실을 제외하고는 데이터를 거의 이해하지 못했습니다.
p.13
이 책은 t-검정이나 ANOVA와 같은 기존의 행동 데이터 분석 방법론을 소개하는 책이 아닙니다. 필자는 비즈니스 문제를 풀면서 회귀 분석이 이러한 전통적인 방법보다 효과가 덜하다고 느낀 적이 없습니다. 이러한 이유로 이 책의 분석 방법을 선형 회귀와 로지스틱 회귀로 한정한 것입니다.
p.32~33
기술 분석은 가장 간단한 형태의 분석이지만 과소평가해서는 안 됩니다. 많은 조직이 조직의 운영 상태를 명확하고 일관된 관점으로 파악하는 데 어려움을 겪습니다. 조직에서 이 문제가 얼마나 큰지 확인하고 싶다면 재무 부서와 운영 부서에게 같은 질문을 던지고 두 부서의 답이 얼마나 다른지 확인하면 됩니다.
p.34
어떤 선택에 기본으로 주어지는 값을 변경하는 것과 같이 환경에 눈에 띄지 않는 사소한 변화만 있어도 행동에 큰 영향을 줄 수 있습니다. 행동 디자인 관점에서는 이렇게 행동이 환경에 따라 변한다는 점이 축복이지만, 작은 변화만 있어도 환경이 달라지면 결과를 예측하기 어렵기 때문에 행동 분석 관점에서는 저주와 같습니다.
p.35
예측 가능성을 높이는 규칙성을 찾으려면 일반적인 분석보다 한 단계 더 깊이 들어가서 행동의 원인을 이해하고 측정해야 합니다. 어떤 사람이 아침으로 오트밀을 먹고 월요일에 어떤 경로로 출근했다고 해서 화요일에도 똑같은 일과를 보낸다고 보장할 수 없습니다. 하지만 아침을 조금이나마 챙겨 먹고 출근길을 나설 것이라는 점은 어느 정도 예상할 수 있습니다.
p.36~37
보간법(interpolation)은 일반적으로 신뢰할 수 있는 반면에 보외법은 언제나 다소 도전적입니다. 특정 범위에서 적용되는 규칙이 그 밖에서도 적용될 것이라고 믿어야 하기 때문입니다.
풍력 터빈과 같은 물리적 개체는 적당하고 일정한 수의 요인에만 영향을 받습니다 (일부 물리 법칙이 적용되지 않거나 새로운 법칙이 무작위로 생겨난다는 의미가 아닙니다). 따라서 분석 대상이 되는 데이터는 관심 공간의 차원에 몰리는 경향 때문에 대부분 보간법을 써서 예측합니다. 또한 모델을 단순화하기 위해 100년에 한 번 발생하는 태풍과 같이 드물게 발생하는 현상이나 영향이 적은 요소를 무시할 수도 있습니다. 만약 무시한 요인 때문에 이상치가 생기더라도 결과는 어느 정도 예측 가능합니다. 헬리콥터의 날개가 부러지더라도 바로 아래에 있는 물 위로 떨어지지 멀리 날아가 버리는 일이 없듯이 말이에요.
반대로 인간의 행동은 어떤 시점에 있을 수도 있고 없을 수도 있으며 시간이 지남에 따라 강해지거나 약해집니다. 따라서 풍력 터빈과는 다르게 관심 공간의 차원에 존재하는 데이터가 매우 적은 경향이 있습니다. 이것은 통계학에서 '차원의 저주'라고 불리는 현상이며 이러한 경우에는 '보외법(extrapolation)'을 훨씬 더 자주 사용하게 됩니다. 또한 환경의 사소한 변화가 행동에 큰 변화를 일으킬 수 있기 때문에 과거의 행동만으로 미래의 인간 행동을 예측하는 것은 이길 확률이 매우 낮은 도박을 하는 것과 같습니다.
행동경제학에 관심이 있는 독자를 위해 덧붙이자면 거시경제학자인 로버트 루카스는 1970년대에 이와 같은 주장을 했습니다. 앞에서 필자가 주장했듯이 로버트 루카스도 인간의 행동 자체를 예측하는 대신 소비자 선호도와 같이 인간의 행동을 유발하는 깊이 있는 매개변수가 무엇인지 고민해야 한다고 말했습니다.
p.41
교란 현상을 해결하는 잠재적인 방법은 회귀 모델에 가능한 모든 변수를 포함하는 것입니다. 이처럼 '가능한 모든 것을 동원하자'라는 사고방식을 지지하는 통계학자도 있습니다. 주데아 펄(Judea Pearl)과 다나 맥켄지(Dana Mackenzie)의 [The book of Why]를 보면 '심지어 최근에 한 저명한 통계학자(도널드 루빈 - Donald Rubin)는 관찰된 공변량(covariate)을 조건화하기를 피하는 것은... 비과학적인 임기응변이다'라고 저술했다'라는 내용이 나옵니다. 많은 데이터 과학자도 이 사고방식에 동의합니다. 어떤 변수의 값을 예측하는 것만이 목적이라면 그저 테스트 데이터를 적절히 일반화하는 모델을 만들고 예측된 변수가 특정 값을 갖는 이유는 궁금해하지 않아도 됩니다. 원하는 것은 결과지 과정이 아니기 때문에 충분히 납득이 가는 사고방식입니다. 하지만 인과관계를 이해하고 이를 기반으로 어떤 의사결정을 내리는 것이 목적이라면 이러한 사고방식은 통하지 않습니다. 이 경우에는 분석 모델에 가능한 한 모든 변수를 포함하는 것이 비효율적일 뿐만 아니라 역효과를 일으키고 결과를 왜곡할 수 있습니다.
p.42
사실 이 예제 데이터는 의도적으로 다음과 같은 사실을 내포하도록 구성되었습니다. 먼저 사람들은 날씨가 더울수록 아이스 커피를 많이 삽니다. 마찬가지로 아이스크림도 날씨가 더울수록 많이 팔립니다. 그러나 아이스 커피를 구매하는 행위 자체가 아이스크림의 구매 행위에 영향을 주는 것은 아닙니다. 여름방학을 맞은 학생들은 아이스 커피의 주요 구매층이 아니기 때문에 여름이라는 시간 요소는 아이스 커피 구매와 상관관계가 없습니다.
p.47
데이터가 실제로 갖고 있는 인과관계를 다시 살펴보면 어떤 사람의 바닐라 맛 선호도가 높을수록 아이스크림 구매로 이어지는 경향이 있고 이는 초콜릿 맛도 마찬가지라고 했었죠. 두 변수에 누적 효과(cummulative effect)가 있다는 의미입니다. 바닐라 아이스크림과 초콜릿 아이스크림을 둘다 좋아하지 않는 사람은 아이스크림을 구매할 가능성이 매우 낮습니다. 다시 말해서 일단 아이스크림을 구매했다면 적어도 두 맛 중 하나는 좋아한다는 의미이므로 바닐라 아이스크림을 좋아하지 않는 살마은 초콜릿 아이스크림을 매우 좋아하는 경향이 있습니다. 반면에 바닐라 아이스크림을 매우 좋아하는 사람은 초콜릿 맛을 좋아하지 않아도 아이스크림을 구매했을 것입니다. 바닐라 맛의 선호도가 대략 15점보다 높은 경우에는 초콜릿 맛의 선호도가 15점 이하로 낮은 경우가 있습니다. 반면에 바닐라 맛의 선호도가 5점 이하로 낮은 경우에는 초콜릿 맛의 선호도가 17점 이상으로 높습니다. 정리하자면 이 음의 상관관게는 구매 전후에 입맛이 바뀌었기 때문이 아니라 바닐라와 초콜릿 맛을 모두 좋아하지 않는 사람을 분석 대상에서 제외했기 때문에 관찰되는 일종의 허위 관계입니다.
이 현상은 전문 용어로 벅슨의 역설(Berkson's paradox)이라고 부릅니다. 주데아 펄과 다나 맥켄지는 이 현상을 '해명 효과 explain-away effect'라는 보다 직관적인 이름으로 부릅니다. 어떤 구매 고객이 바닐라 맛을 매우 좋아한다면 초콜릿 맛의 선호도와는 '상관없이' 아이스크림을 구매한 이유를 충분히 설명할 수 있습니다. 반면에 어떤 구매 고객이 바닐라 맛을 선호하지 않는다면 바닐라 아이스크림을 구매할 이유가 없어서 초콜릿 아이스크림을 구매했을 것이고 초콜릿 맛의 선호도가 매우 높을 것이라고 예상할 수 있습니다.
벅슨의 역설은 처음에는 직관적이지 않고 이해하기 어렵습니다. 분석을 시작하기 전에도 수집 방법에 따라 데이터 자체에 편향이 생길 수 있습니다. 데이터에 편향이 있을 때 인위적인 상관관계가 생기는 현상을 설명하는 고전적인 예를 드면 일반적인 모집단이 아니라 병원 환자를 모집단으로 설정하면 몇몇 질병이 더 강한 상관관계를 보입니다. 한 가지 병에만 걸렸을 때보다 두 가지 병을 함께 앓을 때 건강이 더욱 악화될 것이고 건강이 나쁠수록 병원에 입원할 가능성이 높아져 병원 환자 모집단에 두 가지 질병을 함께 앓는 경우가 많을 것입니다.
'Growth > 통계' 카테고리의 다른 글
불멸의 이론 (2) | 2023.08.19 |
---|---|
의료인을 위한 R생존분석 (0) | 2023.08.10 |
말로만 말고 숫자로 대봐 (0) | 2023.05.28 |
데이터 분석의 힘 (1) | 2023.05.13 |
파이썬을 이용한 경제 및 금융데이터 분석 (0) | 2023.03.18 |
댓글