본문 바로가기
과학

데이터 과학자의 사고법

by Diligejy 2022. 3. 9.

https://link.coupang.com/a/kC0Fr

 

[김영사]데이터 과학자의 사고법 : 더 나은 선택을 위한 통계학적 통찰의 힘

COUPANG

www.coupang.com

 

p.24~25

2008년 금융위기의 원인을 좀 더 구체적으로 파악해보도록 합시다.

 

첫 번째 원인은 저소득층 사람의 신용을 너무 높게 평가한 것입니다. 이유는 단순하게도 저소득층의 신용을 평가할 데이터가 부족했기 때문입니다. 저소득층은 금융회사에서 대출을 거의 받지 못하기 때문에 부도를 낼 수도 없습니다. 저소득층이 대출을 받은 경우에는 보통 특별한 사연이 있습니다. 이를테면 소득은 낮지만 아버지가 부자여서 대출이 가능한 경우를 생각할 수 있습니다. 이럴 경우 금융회사의 데이터에 있는 저소득자는 모두 아버지가 부자일 것입니다. 그러나 대출을 거부당한 수많은 저소득자는 아버지도 가난했습니다. 즉, 분석에 사용된 데이터가 모집단을 대표할 수 없었던 것입니다. 이러한 무제는 새로운 것이 아니고, 신용평가에서는 아주 잘 알려진 '거절자 추론'reject inference이라는 문제입니다. 데이터 분석가가 무시했거나 무지했거나 둘 중 하나였던 것입니다.

 

두 번째 원인은 금융회사가 신용평가기관의 평가 기법을 잘 알고 있다는 것입니다. 신용평가기관에서 금융회사로 이직하는 사람이 꽤 있었고, 어떤 경우에는 금융회사가 특정한 목적을 위해 신용평가기관 전문가를 스카우트하기도 했습니다. 평가 방법을 잘 알면 평가의 허점을 이용하여 신용평가도를 인위적으로 높일 수 있습니다.

 

가령 신용평가기관의 평가 규칙이 '금융회사가 좋은 신용평가를 받기 위해서는 대출자들의 신용점수가 평균 615점 이상이어야 한다'고 가정하겠습니다. 여기에 평균의 함정이 있습니다. 대출자들의 신용점수가 615점을 기준으로 균등하게 분포되어 있는 경우와 50퍼센트의 대출자는 신용점수가 550점이고 나머지 50퍼센트의 대출자의 신용점수가 680점인 경우가 구별이 안 됩니다. 물론 두 번째 경우에 금융회사가 부도날 확률이 훨씬 높아집니다. 부도는 평균이 중요하지 않습니다. 10명에게 대출해준 은행은 보통 2명만 부도내도 크게 손해를 봅니다. 전체 대출자 신용도의 평균보다 고위험 대출자가 얼마나 많은지가 부도 위험을 측정하는 데 훨씬 중요한 지표입니다. 금융회사는 이를 모두 ㅇ라고서도 탐욕에 눈멀어 고의적으로 무시했습니다.

 

p.38~39

먼 과거에는 사건 A의 확률을 다음과 같이 구했습니다. 주사위를 2개 던질 때 나올 수 있는 눈의 수의 합은 2부터 12로 11가지입니다. 그래서 눈의 합이 7이 나올 확률은 11분의 1이라는 것입니다. 동전에는 앞면과 뒷면이 있기 때문에 동전을 던져서 앞면이 나올 확률이 2분의 1인 것과 비슷한 논리이지요. 이러한 논리는 뭐가 잘못된 것일까요? 그 이유는 2개의 주사위를 던질 때 눈의 합이 2일 확률과 눈의 합이 7일 확률이 다르기 때문입니다.

 

복합사건의 확률을 계산하는 방법은 '발생할 수 있는 모든 사건에 대해서 근원확률을 먼저 구하고, 이를 바탕으로 우리가 관심있는 사건의 확률을 계산'하는 것입니다. 우리가 관심 있는 사건을 먼저 고려하면 안 됩니다. 주사위 2개 눈의 합이 7일 사건에 대한 확률 계산에서는 먼저 주사위 2개 눈의 가능한 모든 쌍을 고려해야 하는데 이게 36개입니다. 그래서 각 쌍이 나올 근원 확률은 36분의 1이 됩니다. 마지막으로 우리가 관심이 있는 '눈의 합이 7'인 사건은 가능한 쌍이 6개 있으므로 '36분의 6 = 6분의 1'이 되는 것입니다. 눈의 합이 가능한 경우가 11개라서 11분의 1이라고 하면 안 된다는 것입니다.

 

주사위 2개의 숫자 합이 7일 확률이 11분의 1이 아니고 6분의 1이라고 계산하는 방법을 알려준 사람은 17세기 철학자 겸 수학자인 파스칼입니다. 상금 100만 원이 걸린 주사위 게임을 합니다. 3번 먼저 이기는 사람이 상금을 모두 가져가기로 했는데 2대 1인 상황에서 더는 게임을 할 수 없게 되었습니다. 상금을 어떻게 나누어 가져야 할까요? 그냥 절반씩 나누어 가지면 될까요? 뭔가 아닌 것 같습니다. 그럼 2대1로 상금을 나누면 될까요? 합리적으로 보입니다. 파스칼의 친구인 드 메레가 파스칼에게 이 문제를 물었고, 파스칼은 수학자 친구인 페르마와 이 문제를 계산합니다. 답은 3대 1로 나누는 것입니다. '도박사의 파산문제'라고 알려진 이 문제의 해결을 통해서 우리가 고등학교에서 배우는 복합사건의 확률을 계산하는 방법이 정립됩니다.

 

p.41~43

심슨 재판에서 재미있는 확률이 사용됩니다. 심슨의 변호사는 다음과 같이 말합니다. "백인 여성과 결혼한 흑인 남성은 상당히 많고 이 중 아내를 살해한 남편은 극히 적습니다. 따라서 심슨이 전처를 죽였을 확률도 낮습니다." 확률을 이용한 변호사의 설명에 검사는 잘 대응하지 못했으며, 심슨의 무죄 판결에도 큰 영향을 미쳤습니다.

 

판결 이후에 밝혀진 것이지만, 변호사의 논리는 엉터리였습니다. 변호사가 인용한 확률은 맞습니다. 단, 살인사건과는 전혀 상관이 없었습니다. 재판과 관련해서는 '아내가 살해되었을 때 남편이 범인일 확률'을 계산했어야 합니다. 이 확률은 대단히 큽니다. 단순히 '남편이 아내를 죽일 확률'을 계산하면 안 됩니다. '아내가 살해되었다'를 알 때와 모를 때 '남편이 아내를 죽일 확률'은 크게 차이가 납니다. 말장난 같지만 실제로 이런 작은 차이가 재판 결과에 큰 영향을 미친 것입니다.

 

두 확률의 차이점을 예를 들어 설명해보겠습니다. 가령, 남편은 흑인이고 아내는 백인인 부부가 1만 쌍이 있습니다. 어떤 사회든 살인사건은 매우 드물게 일어나므로 1만 쌍 중에서 아내가 살해된 부부는 2쌍뿐입니다. 그래서 이 2쌍의 부부 중 1쌍은 남편이 아내를 살해했습니다. 심슨의 변호사가 주장한 논리대로라면 확률은 1만 분의 1이 됩니다. 전체 부부 1만 쌍 중 남편이 아내를 살해한 경우는 1쌍만 있기 때문입니다. 그런데 실제 재판을 위해서 적용해야 할 확률은 2분의 1입니다. 왜냐하면 아내가 살해된 부부는 2쌍이고 이 중에서 남편이 아내를 살해한 경우는 1쌍이기 때문입니다. '아내가 살해당했다'는 사실을 아는 것과 모르는 것에 따라 확률이 크게 변합니다. 변호사는 고의적으로 '아내가 살해당했다'라는 사실을 확률 계산에 사용하지 않았습니다. 그럼에도 검사는 이런 오류를 찾아내지 못했습니다. 심슨 재판에서 변호사가 주장한 논리를 '변호사의 오류'라고 합니다.

 

변호사의 오류가 시사하는 바는 동일한 사건에 대해서도 이미 알고 있는 정보가 무엇인가에 따라서 확률이 바뀐다는 것입니다. 확률은 고정된 것이 아니고 우리의 지식에 따라 유동적으로 바뀝니다. 이렇게 바뀌는 확률을 '조건부확률'이라고 합니다. A가 관심 있는 사건이고 B가 우리가 알고 있는 정보이면, P(A|B)는 B를 알고 있을 때 A의 조건부 확률입니다. 심슨 재판에서 변호사가 계산한 조건부확률에서 A는 '심슨이 전처를 죽이는 사건'이고, B는 '심슨이 흑인이고 전처가 백인'이라는 정보입니다. 올바른 조건부확률은 B를 '심슨이 흑인이고 전처가 백인, 그리고 전처가 살해됨'으로 놓아야 했습니다. 변호사는 '전처가 살해됨'이라는 정보를 고의적으로 누락한 것입니다.

 

조건부확률은 데이터과학의 핵심입니다. 우리가 궁극적으로 알고자 하는 것이 A이고 데이터로부터 얻는 정보가 B입니다. 그러면 P(A|B)를 통해서 A의 불확실성을 측정합니다. 여기서 확률 P(A|B)와 확률 P(A)를 비교해보면 매우 흥미롭습니다. P(A)는 사건 B의 정보가 없을 때 사건 A의 확률이라고 해석할 수 있고, P(A|B)우리가 사건 B를 경험한 후 사건 A에 대한 확률입니다. 결국 P(A|B)와 P(A)의 차이를 이용해서 사건 B가 사건 A에 대한 확률을 얼마나 바꾸는지를 알아볼 수 있습니다. 차이가 많이 날수록 사건 B는 사건 A를 이해하는 데 중요한 역할을 한다고 이야기할 수 있습니다. '내일 비가 올' 사건을 A라 하고 '오늘이 7월'인 것을 사건 B라고 하면 P(A)보다 P(A|B)가 훨씬 클 것입니다. 우리나라에서 7월은 장마기간이기 때문입니다. 이러한 비교를 바탕으로 계절은 비 올 사건을 예측하는 데 매우 중요한 정보가 된다고 할 수 있습니다.

 

p.44~46

확률의 착시현상은 정확도의 의미에서 비롯합니다. 고성능 거짓말탐지기는 정확도가 97퍼센트입니다. 따라서 3퍼센트는 잘못 탐지합니다. 진실을 말한 사람을 거짓말쟁이로 판단하거나 거짓말쟁이를 진실을 말한 사람으로 판단하는 오류가 3퍼센트 정도 됩니다. 얼핏 낮아 보이지만 이 정도의 정확도는 판사가 원하는 것이 아닙니다. 판사는 거짓말탐지기의 판단 결과가 매우 정확하기를 요구합니다. 가령 살인용의자 홍길동에게 거짓말탐지기를 적용할 때, A를 홍길동이 진짜 거짓말쟁이라는 사건이고, B를 거짓말탐지기가 홍길동을 거짓말쟁이로 지목하는 사건이라고 하겠습니다. 그러면 판사가 원하는 것은 P(A|B)가 매우 높은 것입니다. 이 확률이 낮으면 진실을 말한 사람을 거짓말쟁이로 판단할 수 있기 때문입니다. 그런데 정확도가 97퍼센트나 되는 탐지기도 P(A|B)는 매우 작을 수 있습니다.

 

정확도가 97퍼센트인 탐지기의 P(A|B)를 간단하게 계산해보겠습니다. 우리나라 인구가 5000만 명이고 이 중 1퍼센트 인 50만 명이 거짓말쟁이라고 가정하겠습니다. 거짓말탐지기를 5000만 명 모두에게 적용하면 대략 4950만 * 0.03 + 50만 * 0.97 = 197만 명 정도를 거짓말쟁이라고 판단합니다. 그런데 이 197만 명 중에 148.5만(4950만 * 0.03) 명은 진실을 말한 사람이고 진짜 거짓말쟁이는 48.5만(50만 * 0.97)명 밖에 안 됩니다. 따라서 P(A|B)는 48.5 / (148.5 + 48.5)로 대략 24.6퍼센트가 됩니다. 거짓말탐지기가 지목한 거짓말쟁이 중 4분의 3은 진실을 말한 사람이라는 것입니다. 정확도가 97퍼센트인 고성능 거짓말탐지기를 사용했는데도 이런 결과가 나옵니다. 법원에서 증거로 택하지 않는 것은 너무 당연해 보입니다.

 

p.47~48

한국의 평범한 어느 가정에 자식이 둘 있습니다. 그 중 1명이 딸인 것을 알 때 다른 1명이 딸일 조건부확률은 얼마일까요? 언뜻 보면 2분의 1인 것 같지만 문제가 조금 다릅니다. 주어진 정보가 '첫째가 딸'이 아니라 '1명이 딸'입니다. 첫째가 딸일 수도 있고 둘째가 딸일 수도 있습니다. 섬세한 계산이 필요해 보입니다. A는 둘 다 딸일 사건이고 B는 1명이 딸일 사건에서 구하고자 하는 조건부확률은 P(A|B)입니다. 자식 2명에 가능한 성별의 쌍은 앞과 마찬가지로 총 4가지 입니다. 그런데 1명이 딸이라는 정보 B를 알기 때문에 가능한 쌍은 (아들, 딸), (딸, 아들), (딸, 딸)이고 이 중에서 우리가 관심있는 사건 A에는 (딸, 딸)만 해당되기 때문에 P(A|B) = 3분의 1이 됩니다. 조건부확률이 크게 변했습니다. 이 예시는 조건부확률이 얼마나 민감하게 변하는지를 잘 보여줍니다. 

 

이 문제를 조금 더 복잡하게 만들어봅시다. 한국의 어느 평범한 가정에 자식이 둘 있으며 그 중 1명이 딸이고, 그 딸의 이름은 윤아입니다. 이때 다른 1명이 딸일 조건부확률은 어떻게 될까요? 딸의 이름이 윤아라는 것을 아는 것과 다른 1명이 딸이 될 사건은 관련이 전혀 없어 보이므로 답은 3분의 1이라고 예상할 것입니다. 그러나 우리의 예상은 또 보기 좋게 빗나갑니다. 정답은 2분의 1입니다. 풀이는 다음과 같습니다. 자식 2명에 가능한 쌍은 다음과 같습니다. (아들, 아들), (딸-윤아, 아들), (딸-not 윤아, 아들), (아들, 딸-윤아), (아들, 딸-not 윤아), (딸-윤아, 딸-not 윤아), (딸-not 윤아, 딸-윤아), (딸-not윤아, 딸-not윤아), 이 중에서 1명이 딸인 것과 그 아이 이름이 '윤아'라는 것을 알기 때문에 (딸-윤아, 아들), (아들, 딸-윤아), (딸-윤아, 딸-not 윤아), (딸-not 윤아, 딸-윤아)로 4가지 쌍이 가능하고 둘 모두가 딸인 경우는 2개여서 조건부확률은 2분의 1이 됩니다. 

'과학' 카테고리의 다른 글

이성적 낙관주의자  (0) 2022.05.05
비아그라 치매 예방?  (0) 2022.04.30
바이러스 쇼크  (0) 2022.03.01
관계의 과학  (0) 2021.07.31
더 이상한 수학책  (0) 2021.02.27

댓글