본문 바로가기
경영/전략

데이터 문해력

by Diligejy 2021. 11. 28.

https://coupa.ng/ca7T9V

 

빅데이터 시대 성과를 이끌어 내는 데이터 문해력:그래프와 도표만 바라보는 당신에게

COUPANG

www.coupang.com

 

p.26

데이터가 여러분에게 직접적인 답을 주는 경우는 없습니다. 설령 아무리 고난도의 통계와 분석 방법을 구사하더라도말입니다.

 

대신, '당신이 무엇을 알고 싶은지, 이를 알게되면 무엇을 하고 싶은지, 이를 위해서는 어떤 데이터(지표)가 필요한지' 이를 구체적으로 생각하는 것이 무엇보다도 중요합니다.

 

p.35

대부분은 먼저 '분석 방법이 틀렸다'라며 '방법론'을 원인으로 지목합니다.

 

하지만 필자는 다음 두 가지가 주요 원인이라고 봅니다.

 

주요 원인1 : 풀고자 하는 문제가 명확하지 않다.

주요 원인2 : 정의한 문제와 사용하는 데이터가 일치하지 않는다.

 

p.45

예를 들어 '우리 지역은 인구 유출을 완화하는 방안이 효과적이지 않다'라는 것을 '문제'라 정의해보겠습니다. 이때 '완화 방안'이란 인구 유출에 대한 해결 방안 중 하나라고 볼 수 있지 않을까요? 즉, 이미 '완화 방안'이란 해결 방안을 전제로 하여 이것이 효과적이지 않다는 것을 문제로 삼고 있습니다. 하지만 그 해결 방안이 '효과적이지 않은' 상황을 데이터로 보여줘봤자, 이미 전제가 깔려 있기에 다음과 같은 질문을 받을 가능성이 큽니다.

 

"그래서 결국은 어떤 문제를 해결하고자 하는 건가요?"
"인구 유출 원인 중 어떤 것을 해결하는 방법인가요?"
"그 방법 이외에 취할 수 있는 다른 해결 방안은 없습니까?"

작업을 시작하기 전에, 해결하고자 하는 '문제'와 그 '목적'에 대해 명확히 할 필요가 있습니다. 여러분이 설정한 '목적'에 대한 '문제', '원인', '해결 방안'이 구분되어 있는지, 결론적으로 말하고 싶은 것과 해결하고자 하는 것(목적, 문제)이 명확한지도 확인해야 합니다.

 

p.52

제가 데이터 분석 활용 강의에서 자주 활용하는 연습 문제를 내보도록 하겠습니다.

반년 전부터 시설 전체 이용자 수가 급감하고 있습니다.
인터넷에서 이용을 촉진하기 위한 프로모션을 적극적으로 하고 있습니다만, 아무래도 효과가 없는 것 같습니다. 그리고 우리 지역인 북부 시설이 남부 시설보다도 상황이 좋지 않습니다.
이용자가 줄어들어서, 수입도 감소하고 있습니다.

일단 앞의 내용을 잘 읽어보고 생각하길 바랍니다. 데이터를 활용해서 분석할 '문제'는 어떤 것이 있을까요?

 

p.62

'부족'과 '감소'는 전혀 다른 개념입니다. '부족'이라고 한다면, 수요에 비해 공급이 충족되지 않는 상황으로, 증가와 감소와는 상관없는 얘기입니다.

 

공급(이 경우 농업 종사자 수)이 만약 감소했더라도, 수요(이 경우 농업에 필요한 사람 수)가 충족되었다면 '부족'이라고 할 수 없습니다. 말하고자 하는 결론이 만약 정말로 '부족'이라면, 수요와 공급, 양쪽 데이터를 제시해서 이야기해야 합니다.

 

p.90

'데이터가 있고 그 데이터로부터 어떤 결론을 내릴 수 있는가'가 아니라 정반대의 과정, 즉 '무슨 말을 하고 싶은지, 어떤 것을 확인하고자 하는지, 이에 따라 XX라는 데이터를 XX라는 데이터와 비교했다'라는 과정이 데이터 활용에 있어서 필수입니다.

 

p.91

데이터 중심으로 접근하는 사람의 결과물은 대체로 '결과'로 끝납니다. 하지만 그렇지 않고 '목적 중심'으로 접근하는 사람은 '결론'까지 말합니다.

 

p.92

그래프나 숫자를 통해 결과만을 해석하는 학생들은 대체로 데이터 중심 사고로 작업을 진행하는 경우가 많아서, 그러한 사고 패턴을 바꾸는 것부터 시작해야 하기 때문입니다.

 

이를 피할 수 있는 방법 중 하나는 그래프나 표를 만들 때 각각의 결과물에 대한 구체적인 결론을 먼저 문장으로 써보는 것입니다. 만약 거기서 머뭇거리게 된다면 자신이 어떤 목적으로 작업하고 있는지 모른다는 것입니다.

 

p.103

여기서도 '뭐가 정답일까?'라는 발상은 버리도록 하세요. 또한 어느 한 기준으로만 좁혀야 하는 것도 아닙니다. 복수의 기준을 사용해서 이들을 조합하고 결론을 낼 수도 있으며, 이 경우 더욱 더 입체적이고 깊이 있는 결론에 도달할 가능성도 큽니다. 

 

'이 사례에서는 어떤 평가가 중요할까? 어떤 설명이나 결론이 가능할까?'라는 관점에서 생각하고, 필요한 기준을 선정해 활용해주길 바랍니다.

 

p.121

서비스 만족도를 측정할 경우, 응답자 전원에 대해 평균을 내는 식이 아니라 목적에 초점을 맞춘 값을 파악하는 것이 더 적절합니다. 그 예로 앞의 편차를 살펴보는 것도 이러한 사례에 해당합니다.

 

가장 큰 이유는, 만족도나 이해도 등의 값(데이터)은 애초부터 그 사람의 주관이나 기대에 기반하여 나온 상대적인 값에 불과하기 때문입니다. 어떤 사람에게는 완벽한 서비스라 할지라도, 다른 기대치가 있는 다른 사람에게서는 낮은 평가가 나올 수도 있습니다. 하지만 그것은 그 서비스 내용 자체가 나쁘다는 결론으로 직결되는 것이 아닙니다. 사용자 간의 전제가 다르다는 것을 무시하고, 단순 계산으로 나온 값에 어떤 의미가 있을까요?

 

p.129

"당신이 현재 직면하고 있는 문제나 그 배경에 대해 전혀 모르는 제3자가 바로 앞에 있다고 상상하세요. 그 사람에게 당신이 다루는 문제를 데이터로 설명하려면 무슨 데이터를 어떻게 보여주면 좋을까요?"

 

상대방이 그 데이터를 보고나서, "그렇군요! 확실히 문제가 있네요!"라고 말한다면 성공한 것입니다.

 

p.141

지표 데이터를 '경쟁사의 가격 인하 데이터'로 잡지 않는 것이 중요합니다. 왜냐하면 그렇게 설정할 경우 어떤 데이터를 수집해야 할지 알 수 없기 때문입니다. 예를 들어 어떤 시점에서의 '가격 인하 후 값'을 데이터로 제시한다 해도 그것이 매출 감소라는 현상과 관련 있는지 입증하기는 애매합니다.

 

가격 인하라는 '움직임'과 매출의 감소라는 '움직임'사이의 관련성을 파악하려면 이들 현상이 발생한 시간대 전후의 움직임과 변화를 알아야만 합니다. 그리고 그 움직임과 변화를 나타내는 지표로 가격 인하 후의 가격을 할지, 아니면 앞의 사레에서 보듯이 '변화율'로 볼지, 여러가지 선택지가 있습니다.

 

p.156

상관관계의 유무는 어디까지나 중간 과정이며 수단에 불과합니다. 수단에 너무 사로잡히지 말고, 의미있는 결론으로 이어질 때까지 끈기 있게 가로축과 세로축의 관련성을 찾아야 할 것입니다.

 

p.183

기본적으로 지금 자신이 생각하고 있는 것이, 

'문제'인지?

'원인'인지?

'해결 방안'인지?

어느 쪽에 해당하는지 파악해야 합니다.

댓글