본문 바로가기
Growth

돈이 되는 빅데이터 읽기

by Diligejy 2022. 5. 29.

p.35

어떻게 가족의 평균 자녀가 2.4명이 되나며 도대체 0.4명은 어떻게 생긴 거냐고 하릴없이 의문을 제기하는 농담을 우리 모두가 들어본 적이 있다. 이게 바로 평균이 얼마나 오해의 소지가 있는지 보여주는 예가 되며, 우리가 정리한 통계 용어로 그 이유를 이해할 수 있다. 블랍 중 그 누구도 한 주에 73파운드를 쓰지 않는다. 그 수치가 블랍 전체를 대표하는 평균일지라도 말이다. 누군가는 더 쓰고, 누군가는 덜 쓴다. 표준편차로 우리는 그 차이를 측정할 수 있다. 평균이 항상 틀리다면 표준편차로 얼마나 틀린지를 알 수 있다.


p.43

현실에서, 특히 기업 데이터 세계에서는 데이터가 정규분포를 따른다고 가정하는 실수를 범한다. 우리는 고객 방문 빈도, 판매 전환율, 재고 보유 수준 등 많은 것을 평균으로 측정하지만, 이 수치는 0보다 작을 수 없고 0보다 더 커야 의미가 있다. 즉 아래에 나오는 그래프처럼 한쪽으로 치우쳐야 한다는 의미다. 다른 모양을 띠는 데이터의 유의성을 계산하는 것도 가능하지만 더 어렵다.

지금은 우리가 유의성 문제를 깨달았으니 결국 직관적인 판단이 도움이 될 수도 있다. 관찰에 기초해서 중요한 의사결정을 하지 마라(이 시장에서 고객은 다른 시장의 고객과 다르게 행동한다). 데이터 간 차이가 작게 느껴지고 그저 임의로 생긴 우연한 차이인 것 같다면 말이다. 더 많은 데이터를 요구하고 더 극적인 차이에 기초한 의사결정을 해야 한다.

 

p.48~49

특정 거래 기간에 가장 성과가 안 좋은 점포 한 곳을 표본으로 골랐을 때, 그 점포가 항상 성과가 저조한 곳은 아니다. 평소 성과가 더 뛰어난 점포인데 우연히 그 기간에 성과가 안 좋은 주간, 월간, 분기를 보냈을 수 있다.

 

표본이 한쪽으로 치우치거나 편향된 경우도 살펴보자. 만약 같은 점포군이 성과 개선 프로그램에 참여하지 않았을 때, 시간이 지나 점포의 성과를 측정하면 그 점포의 성과가 진짜로 계속 저조할 것이라고 예상할 수 있다. 또한 성과가 안 좋은 주간에 성과를 측정해서 하위 25%의 점포군이 됐다면, 평소에 달성하던 평균 성과로 개선될 것이라 예상할 수도 있다. 결국 성과 하위 25%에 속하는 점포 전체의 성과가 여러 사업을 능가한 것처럼 보일 것이다. 점포 성과를 처음 측정한 시점에 안 좋은 주간을 보냈다면, 그 점포는 아주 쉽게 다시 평소 성과로 돌아갈 수 있다.

 

통계학자들이 이 현상에 이름을 붙였다. 바로 평균으로의 회귀이다. 특정 시점에 성과가 저조한 점포 중에서 표본을 선택한다. 그 뒤에 다시 성과를 측정하면 전반적인 성과가 전체 점포의 중간, 즉 평균에 조금 더 가까워지는 것을 볼 수 있다. 이런 점포는 운이 없게 표본으로 선택됐지만 평소 실적을 회복했기 때문이다. 물론 같은 논리가 거꾸로 적용되기도 한다. 뛰어난 성과를 보인 점포가 시간이 지날수록 평균 성과로 하락하는 경향을 보일 수도 있다.

 

p.58

데이터를 분석할 때마다 어떠한 가정을 세웠는지, 우리 스스로와 다른 사람들에게 명확히 해야 한다.

 

p.74

고객인 당신은 공포 영화를 많이 봤을 수도 있지만, 어쩌면 뮤지컬 코미디에도 관심이 있을 수 있다. 하지만 '공포 영화도 보면서 뮤지컬 코미디 영화도 관심이 있는' 그런 조합은 절대로, 본질적으로 세그먼트가 될 수 없다. 그래서 과거의 방문 정보를 구체적으로 관찰해도, 세분화 절차에 의해 결국 평균이 될 가능성이 높다.

 

p.89~90

우리는 어떤 것을 예측하려 하는가? 어쩌면 그 목록은 끝이 없을지도 모른다. 하지만 시작할 때 유용한 질문 목록은 있다.

 

- 어떤 상품에 특정 고객이 다음에도 흥미를 보일 가능성이 높을까? -> 다음 구매를 위한 논리적인 상품 추천 모형은?

- 어떤 고객이 경쟁사로 떠나갈 가능성이 높은가? -> 우리가 구독 기반 사업자라면 어떤 고객이 멤버십을 해지할 가능성이 높은가?

- 어떤 점포가, 어떤 판매 사원이 다른 점포, 다른 동료와 비교할 때 더 높은 혹은 더 낮은 성과를 달성할까?

- 특정 상품의 가격이 인상되거나 동일할 때 고객은 어떻게 반응할까?

- 잘 조합해서 팔 구체적인 상품이 있는가? 그렇다면 묶음 상품을 개발해야 할까?

- 상환조건을 두면 고객이 잘 납부할까? 반대로 부실채무 위험을 일으킬까?

 

p.108

역사적 데이터에 기초해 구축한 예측 모형은 실전에서 항상 점검해야 한다. 역사적 데이터가 어떤 패턴을 보이는지 인지하고, 패턴에 따라 어떤 예측을 하는지 점검해야 한다. 보통 역사적 데이터에 기초해 예측을 할 때 다른 많은 조건이 안정적으로 유지된다고 가정한다. 그러나 이런 예측은 주변의 다른 조건이 바뀔 위험을 항상 인지하고 있어야 한다.

 

p.114

기업 활동의 한 부분으로 예측 모형을 고려할 때 핵심적인 질문을 해야 한다. 이 모형으로 무엇을 하려고 하는가? 결론을 실행하는 데 비용이 얼마나 들고, 이에 따른 편익은 무엇인가(모형이 정확하지 않을 때, 즉 좋은 고객 2명이 부실 채무자에 포함됐을 때 발생하는 비용도 포함한다)? 심지어 모형을 구축하기 전에 실제로 이런 계산을 할 수도 있다. 이렇게 비용과 편익을 적절하게 이해하면, 모형이 실제로 실행할 만한 가치가 있을 때 정확성에 대한 임계값을 계산하는 데도 도움이 된다.

 

p.116~117

비용-편익 분석의 핵심은 실제로 향상도 개념에서 시작한다. 왜냐하면 보통 가능한 한 정확한 잠재고객(또는 이탈 고객, 부실 채무자)을 목표로 삼고 싶기 때문이다. 모형에서 향상도에 대한 답은 한 가지가 아니다. 우리가 목표로 하는 대상이 얼마나 큰 표본인지에 따라 다르다. 모형의 예측 결과에 대한 비용-편익 논의는 절대적인 '맞다, 틀리다'가 아니다. 대체로 매우 적은 수의 고객을 대상으로 효과를 높이느냐, 혹은 덜 정확하지만 많은 수의 고객을 대상으로 삼느냐 하는 상충관계에 대한 논의다. 실제로 목표하는 고객에 대한 고정비와 변동비를 판단하는 훌륭한 기준이 있다면, 투자 대비 최고의 이익을 나타내는 향상도 곡선에 그 기준을 효과적으로 적용할 수 있다.

 

p.119

일단 우리가 어떤 조치를 취하고 보상을 내걸었을 때, 2가지 방면에서 돈을 낭비한다는 사실이 명확하다. 첫째는 절대로 이탈하지 않을 고객에게 돈을 쓰고, 둘째는 결국 이탈하는 고객에게도 돈을 썼다. 2가지 비용은 우리의 편익을 능가했다. 누가 이탈할지 꽤 정확하게 예측할 수 있었지만, 그 단계에서 행한 조치는 비용 면에서 효율적이지 않다는 결론을 내려야 했다. 고객이 해지하려고 전화할 때까지 기다렸다가, 그때 가서 문제를 해결하는 것이 훨씬 더 효율적이었다. 비록 사후 관리는 선제적으로 연락을 취할 때보다 낮은 전환율을 보이겠지만, 어쨌든 이탈하지 않을 고객에게 연락하는 데 돈을 쓰지 않을 수 있었다. 그렇게 이 사례에서는 투자 대비 더 높은 이익을 얻었다.

댓글