본문 바로가기
Growth

데이터 리터러시

by Diligejy 2022. 10. 30.

p.21

'쓰레기 같은 데이터로 분서갛면 결과도 쓰레기같이 나온다'라는 유명한 말은 그저 우스갯소리가 아니다. 글로벌 항공사인 유나이티드 에어라인스의 사례가 이에 딱 맞는 경우다. 과거 이 항공사는 비행기 좌석 수요를 과학적으로 예측하기 위해 자사가 보유하고 있던 데이터를 기반으로 예측 모형을 만들어 운영한 바 있다. 그런데 2018년 즈음, 그 모형의 기초가 되었던 데이터들은 근본도 알 수 없는 몇 십 년 전 구닥다리 데이터였음이 밝혀졌고 당연히 그 모형 역시 즉각 폐기됐다. 하지만 그 대가는 생각보다 혹독해서 유나이티드 에어라인스가 그 데이터 탓에 그간 '잃어버린 매출'은 연간 10억 달러 규모일 것으로 추산되었다. 

 

p.39~40

한 글로벌 리테일 기업의 데이터 분석팀이 점포별 성과 격차가 발생하는 요인을 분석했다. 분석팀은 수천 개 점포의 여름 시즌 데이터를 이용해 분석을 시도했고 '전문 인려고가 분석 솔루션을 보유한 점포들은 확실히 성과가 좋았고, 나아가 이직률과 근무만족도 모두 현저히 낮았다'고 보고했다. 보고 내용을 듣던 대부분의 임원들은 뭔가 큰 노하우를 찾았다는 기쁨에 대부분 감동을 느꼈지만, 한 임원의 질문에 그 감동은 사라지고 말았다. "이 분석에는 언제 데이터가 사용된 건가요?" 여름 한철 데이터를 썼다고 분석팀이 답변하자 모두가 당황해했다. 리테일 산업의 특성상 여름은 비정규직 직원의 비율이 원체 높고 점포 성과도 다른 계절 대비 세 배의 차이를 보일 정도로 불안정해 어떤 결론을 얻기 위해 분석하기엔 적합지 않은 시기였기 때문이다. 분석팀은 리테일 산업의 '여름'이 갖는 특수성이라는 맥락을 이해하지 못한 것이다.

 

p.50

2018년에는 데이터 리터러시 수준과 기업의 재무적 성과 사이의 상관관계에 대한 흥미로운 연구 하나가 발표되었다. 연구는 데이터 리터러시 전문기관인 클릭, 와튼 스쿨 아카데믹스 및 영국의 시장정보제공 기업 IHS 마킷에 의해 진행되었다. 조사 대상은 글로벌 10개 지역에 퍼진 604개 다국적 기업이었으며 전체적인 결론은 다음과 같았다.

 

- 데이터 리터러시 수준이 높은 기업은 기업가치가 5% 정도(3억 2,000만  5억 3,4000만 달러)가 높았다.

- 92% 기업의 의사결정자들이 직원들의 데이터 리터러시가 높아지길 원하지만 정작 구체적으로 장려하는 회사는 17%에 불과했다. 

 

p.59-61

초창기 학계를 중심으로 이뤄졌던 주요 연구별 데이터 리터러시 프레임워크를 살펴보자. 다행스럽게도 2019년에 캐나다 통계청이 발표한 '데이터 리터러시 : 무엇이고 어떻게 측정하나(Data Literacy: What It Is and How to Measure It in the Public Service, Aneta Bonikowska, Claudia Sanmartin and Marc Frenette)'를 보면 초창기 연구들 간의 비교 분석이 가능하다. 아마도 캐나다 통계청은 이 문제를 상당히 진지하게 받아들였던 듯한데, 덕분에 우리는 데이터 리터러시가 어떤 하위 속성 역량들로 구성되어 있는지 일목요연하게 이해하는 것이 가능해졌다.

 

가장 먼저 주목할 부분은 '역량'에 해당하는 단어로 어빌리티(ability)가 아닌 컴피턴시(competency)가 사용되었따는 점이다. 전자가 '할 수 있는가'의 여부에 주목하는 단어라면 후자는 말의 뿌리를 '경쟁하다(compete)'에 두고 잇는 만큼 경쟁적 관점, 즉 얼마나 잘하고 못하는가에 주목하는 단어다. 그렇기에 '컴피터너시'를 사용했다는 것은 곧 데이터 리터러시의 속성 역량들 역시 (데이터 사이언티스트의 수준까지는 아니더라도) 다소 전문화된 훈련과 육성을 필요로 하는 것들임을 암시한다. 더불어 이는 단순한 스킬이나 지식수준이 아니라 조직 입장에선 장기적이고 종합적인 투자, 개인 입장에선 본인의 자세에 따라 이 역량을 갖추기까지 걸리는 시간에 차이가 있을 것임을 뜻하는 것이기도 하다. 

 

p.80-81

데이터 분석의 목적은 쉽게 말해 내가 상황을 인지하고 표현하기 위함인지, 평가를 하기 위함인지, 혹은 더 나아가 미래의 양상을 알거나 특정 문제를 해결하기 위함인지를 말하는 것이다. 가령 더운 여름 날 여러분이 "현재 온도는 섭씨 35돋입니다"라고 말했다면 기술, "더운 날씨는 온라인 사업에 우호적인 조건입니다"는 평가, "앞으로 우리나라의 기후는 아열대 특성을 강하게 띨 것이므로 오프라인 매장은 인접성보다 접근성이 훨씬 중요해질 것입니다"는 예측, "사람의 소비 성향을 자극하는 실내 온도는 섭씨 24도로 분석되었으니 매장의 온도를 2도 정도 내려보세요"라고 말했다면 문제해결에 해당한다. 

 

p.91

 

p.97-98

 

 

A라는 사람이 "겨울이 되니 춥네"라 하자 그 옆에 있던 B가 "몸이 안 좋은 거 아냐?"라고 반문한 상황을 예로 생각해보자. B의 말은 어떻게 받아들이면 좋을까? 자칫 별것 아닌 대화에 시비를 거는 게 아닌가 싶겠지만, 이런 대화의 흐름은 비판적 사고에서 자주 언급되는 '제3의 요인에 대한 암시'를 통한 비판에 해당한다(비판은 트집이 아니라 기존 주장을 되돌아볼 수 있게 하는 발언이다). '겨울'이 원인이고 '춥다'가 결과('겨울' -> '춥다')라는 생각을 가진 A에게 B의 말 ('몸이 좋지 않다' -> '춥다')은 '지금 내가 추운 게 꼭 겨울이라서 그런 건 아닐 수도 있겠네?'라는 생각을 갖게 한다. 즉, B의 말은 A의 생각을 약화(weakening)하는 요인이 되는 것이다. 이것이 바로 비판적 사고를 바탕으로 생각과 생각 사이의 관계를 논리적을 파악하는 힘이다. 

 

이를 데이터에 대입해서 생각해볼 수 있다. C라는 사람이 다음과 같은 데이터를 제시하며 당신에게 '가난한 사람일수록 자녀를 낳지 않는다'라 주장한 상황을 가정해보자.

 

그런데 공교롭게도 당신은 이미 다음의 데이터를 가지고 있는 상황이다. 이런 상황에서 당신은 C에게 뭐라고 말할 수 있을까? 이 질문에 의외로 '두 가지는 서로 관련이 없으므로 아무런 반응을 하지 않는다'라고 답변하는 사람이 많다.

 

하지만 정말 그럴까? 해를 거듭할수록 산모의 연령이 높아진다는 사실은 '가난한 사람일수록 자녀를 낳지 않는다'는 것이 사실이 아님을 직접적으로 밝히진 못해도 '고연령 -> 경제적 여유가 생김 -> 아이를 나을 여건이 조성됨'의 개연성은 암시해줄 수 있다. C가 제시한 데이터에 등장한 소득 하위 그룹은 소득이 낮기도 하지만, 젊은 신혼부부가 많이 속해 있어서 아이를 낳지 않는 것일 가능성, 즉 '연령이 제3의 요인으로 작용했을 가능성'을 제기하는 것이다. 추론 영역에서 이를 (해당 주장을 정면으로 반박하진 못했어도) '약화시켰다'고 말하는 것도 이런 맥락에서다. 

 

p.112-113

전문지식을 공유하는 비영리 단체인 센터 포 오픈 사이언스의 설립자 브라이언 노섹은 2015년 '같은 데이터, 다른 결론(Same Data, Different Conclusion)' 현상에 대한 실험 결과를 발표했다. '축구 심판들이 흑인 선수에게 레드카드를 더 자주 준다는 말은 사실인가?'를 밝혀내려는 이 실험에는 총 29개 팀 61명의 데이터 분석가가 참여했고, 이들에겐 동일한 데이터가 제공되었다. 이들이 사용한 분석 기법들은 간단한 선형 분석에서 다중회귀 분석, 베이지안 분석까지 다양했다.

 

결과는 흥미로웠다. 20개 팀이 '흑인 선수들은 레드카드를 더 받는다'는 결론을 내린 반면, 9개 팀은 '피부색과 레드카드는 관련이 없다'고 결론 지은 것이다. 그저 접근법이 상이했던 것일 뿐인데 말이다. 각 팀이 사용한 분석 기법은 다른 팀의 검증 절차를 거쳤기에 분석 과정에서 오류가 있을 가능성은 없었다. 분석가들의 능력 부족이나 태만이 변수였을 가능성 역시 존재하지 않았다. 또 다른 프로젝트 리더이자 저명한 심리학자인 인사이드 비즈니스 스쿨 아시아 캠퍼스의 에릭 루이스 율만이 "모든 참가자는 최고 수준의 전문가였고, 답을 찾고자 하는 열정으로 가득차 있었습니다."라고 못박았으니 말이다. 덧붙여 그는 이렇게 갈무리했습니다. "하나의 분석으로 궁극의(definitive) 답을 찾는 건 쉽지 않은 일입니다. 모든 결론은 다른 결론이 그것을 뒤엎기 전까지 한시적(temporary)으로 '답'이라는 위치에 있을 뿐입니다." 결국, 아무리 같은 목적과 같은 데이터를 가진 전문가들이라도 서로 다른 접근법을 취하면 충분히 다른(subjective) 결론을 내릴 수 있다는 것이다. 

 

'한시적인 답'이 곧 분석 무용론을 뜻하는 것은 아니다. '한시성'을 강조하는 이유는 분석 결과의 유연성을 인정해야 자신의 문제를 자신의 데이터로 자유자재로 해결할 용기가 생기기 때문이다. 정답과 오답이 정해져있는 것이 아니니 용기를 가지고 더 많은 설명력을 가진, 더 오래 정답의 지위를 고수할 답을 찾아가보자. '문제해결은 각 데이터 리터러시 역량별로 충분한 연습을 한 이후에나 시도하는 것'이라는 생각을 버려야 오히려 다양한 역량과 자연스럽게 친해질 수 있다. 

 

p.116-117

실제 현장에서 데이터를 기반으로 문제를 해결하고 가르친 경험에 비춰보자면 아무리 훌륭한 커리큘럼도 '데이터로 혁신할 수 있겠다'란 마음을 갖게 하기는 쉽지 않다. 그래서 굳이 세 요건 중 가장 중요한 하나를 꼽으라면 첫 번째 요건인 '동기부여'다. '바쁜 업무 시간을 쪼개서 데이터 역량 교육을 받아야 하는 이유'가 아니라, '데이터로 문제해결을 하면 좋은 이유' 및 '데이터가 수평적 조직 문화와 조직 경쟁력에 기여할 수 있는 이유'를 몸으로 체험하게 하는 것이다. 이 간극을 빠르게 메우는 노하우를 가진 조직은 구성원들을 빠르게 실무 역량화 시킬 수 있다. 그들 스스로가 자발적으로 방법을 찾기 시작할 것이기 때문이다.

 

노하우 마련에 도움이 될까 싶어 아이디어를 공유하자면 데이터 케이스 풀(pool), 데이터 100분 토론, 데이터 문제해결 공모전을 활용해볼 수 있다. 이 셋의 공통점은 동기부여, 데이터, 역량의 3요소를 조직 고유의 문제와 데이터로 만족시킴과 동시에 구성원들의 몰입감도 끌어낼 수 있다는 것이다. 그리고 이런 훈련, 콘텐츠가 지속적으로 축적되면 지속가능한 훈련 체계를 만들어내는 것 또한 가능해진다. 

 

p.121

데이터가 없다면 당신은 그저 주장 말고는 가진 게 없는 사람일 뿐이다.

- 에드워즈 데밍

 

p.130

세상을 인식한다는 막연한 개념은 어떤 '관점'으로 인식할 것인가와 직결되어 있다. 누구도 세상을 총체적으로 단박에 이해할 수는 없기 때문이다. 결국 별도로 마련된 관점으로 쪼개서 차근차근 이해할 수밖에 없다면, 이때 데이터는 훌륭한 도구가 된다. 모든 데이터는 고유의 관점을 가지고 있기 때문이다. 몇 장의 지도로 기대 이상의 소득을 얻었다면 그것은 단순히 지도를 봤기 때문이 아니라 그 관점을 받아들였기 때문이다. 동의하든 동의하지 않든 그 관점은 우리가 세상을 바라보는 창문 역할을 하게 된다. 세모난 창은 세모난 세상을, 둥근 창은 둥근 세상을 보여줄 것이다. 먼지 낀 창은 말할 것도 없이 치명적이다. 데이터는 바로 창(window)이다. 

 

p.131

'그저 알고 있는 것'과 '어느 정도인지까지도 알고 있는 것' 사이에 얼마나 큰 차이가 있는지를 아는 건 매우 중요한 일이다. 모든 첨예한 의사결정은 '나는 옳은 방향으로 생각하고 있는가'에 대한 '네/아니오'의 답변이 아니라 '나는 충분히 옳은가', 즉 정도의 차이에 대해서까지 답변되었을 때 가능해지기 때문이다. 그리고 데이터는 이러한 '정도의 차이'를 파악하는 데 상당히 특화되어 있다. 애초에 데이터란 것은 이 차이까지 파악한 상태여야 작성될 수 있기 때문이다. 

 

p.133

 

p.136

 

p.163-164

뭔가 굉장히 복잡해 보이는 차트지만 일단 숨을 고르고 다음의 순서대로 천천히 파악해보면 된다. 어떤 차트를 접하든 다음의 질문들을 쫓아가다 보면 기본은 놓치지 않으니 말이다.

 

첫째, 무엇을 측정한 차트인가? : 분석 대상의 파악은 데이터를 이해하는 첫 단추다(예: '사람을 대상으로 한 차트다' 또는 '회사를 대상으로 한 차트다' 등).

 

둘째, 어떤 관점들이 사용되었나? : X축, Y축의 의미와 사용단위(unit)를 파악해야 등장인물에 의미를 부여할 수 있다(예: '사람을 연봉과 연령으로 파악하고 있다' 등).

 

셋째, 어떤 범례 또는 카테고리가 사용되었나? : 범례는 작성자가 자신의 의도에 따라 의미를 부여한 것이므로 작성 의도에 대한 힌트를 담고 있다 (예: '직장인을 연봉을 기준으로 다섯 그룹으로 나눈 것은 연봉과 관련된 메시지 전달을 시도하기 위해서다' 등).

 

넷째, 어떤 시기를 다루고 있나? : 시점과 기간에 대한 정보가 가미되어야 메시지를 입체적으로 이해할 수 있다(예: '이 차트는 10년 전 데이터다' '이 차트의 결론은 과거를 통해 현재를 재조명하기 좋다' 등).

 

다섯째, 노트 또는 각주는 무엇인가? : 노트 또는 각주를 빼놓지 말아야 섬세한 결론을 내릴 수 있다. (예: '등장한 인물 모두가 국내의 30대 여성이다' 등 일반화하지 않도록 조심해야 한다.)

 

p.209

삶은 문제 그 자체고, 사는 것은 문제 풀이의 연속이다. 

 

- 레이먼드 페이스트 (Raymond E. Feist)

 

p.219

불교에서는 '몰자미(没滋味)'라는 말이 있다. '마음공부를 하다 보면 온갖 것에서 아무런 맛과 재미도 느껴지지 않게 된다'는 뜻의 이 말은 깨달음을 위해 정진하는 구도자 입장에서의 '죽음의 협곡' 구간에 해당된다 하겠다. 큰 깨달음을 먼저 이룬 선승들은 이렇게 너무나도 힘들고 어려운 구간에 들어섰다는 것 자체가 깨달음에 가까워졌다는 징표라고 이야기한다. '재미라는 개념이 없어지고 나면 진정한 깨달음의 문턱에 다다르게 된다'는 이 진리는 스타트업계의 죽음의 계곡과 매우 유사한 이치라 할 수 있다. 그러니 이런 곡선에 직면해 있다고 느껴질 때면 곧 큰 성장이 이뤄질 것이라 믿어보자. 작은 실력은 계단처럼, 큰 성공은 죽음의 협곡을 지나야 나오는 것이라 되뇌며 말이다. 

 

p.256

실제 전문가들의 보고서를 가공한 다음 자료가 갖는 사실성, 연관성, 충분성을 비판해보자. 일단 찾아야 하는 것은 메시지다. 앞서 언급했듯 어떤 데이터에서 사실성이나 연관성, 충분성이 결여되어 있다는 말은 해당 데이터가 특정 메시지를 지지하고 있다는 전제가 있을 때 성립된다. 즉, '이 데이터는 (특정 메시지를 지지하는 근거가 되는데 필요한) 사실성이나 연관성, 충분성이 결여되어 있다'는 뜻인 것이다. 우리가 어떤 데이터를 접했을 때 제일 먼저 할 일이 메시지를 찾는 일이어야 하는 이유도 이것이다.

 

p.291

당신이 고객 DB를 시장에서 구입해 텔레마케팅을 하는 교육회사의 직원이라고 가정해보자. 그리고 여러분의 상사가 "고객 DB의 구매처에 따라 마케팅 성과가 어떻게 달라지는지 알아보세요"라고 요청했다.면 당신은 어떤 생각부터 해야 할까?

 

핵심은 DB 구매처와 마케팅 성과의 관계를 규명하는 것인데, 맥락적 사고를 하는 사람이라면 "그건 분석을 해서 알 수 있는 사안이 아닙니다"라고 말할 수 있어야 한다. 왜냐하면 구입한 DB가 실제 영업 DB로 분류되어 사용될 때까지 셀 수 없이 많은 변수들이 영향을 미친다는 사실을 잘 알고 있기 때문이다. 바꿔 말하자면 이는 우격다짐으로 'DB 구입처에 따른 상품 판매율'을 오류 없이 잘 수행한다 한들 그 결과는 아무 의미도 갖지 못한다는 뜻이다. 그저 어떤 분석 소프트웨어에 모종의 숫자를 집어넣은 결과로 나온 또 다른 숫자에 불과한 것이니 말이다. 

 

p.299

분석 어프로치 설계와 관련해 꼭 가져야 하는 습관은 '중얼거려보기'라는 점이다. '음.... , A에 B를 더하고 C를 빼면 되겠네. 부족한 정보는 D를 E로 나누면 만들 수 있겠다. 그런 다음엔...' 하는 식으로 머리에서 먼저 설계를 끝낸 뒤 데이터 가공을 하는 식으로 말이다.

 

p.323

데이터에 대해 충분히 고민하지 않은 채 차트를 화려하게만 꾸며 그런 부분을 만회하려는 컨설턴트들에게 내가 자주 썼던 표현이 있다.


"네가 화가니?"

댓글