본문 바로가기
Growth

가볍게 떠먹는 데이터 분석 프로젝트

by Diligejy 2022. 4. 9.

p.36~37

진단 분석 케이스 스터디

 

여러분이 유기농 재료로 만든 친환경 가정용품을 판매하는 소매 프랜차이즈의 분석팀장이라고 가정해보자. 매월 경영진과 성과 보고회의를 가지는데, 분석팀장으로 중요한 지표인 월별 매출 성장을 계산하였다. 여러 자료를 검토하고 분석한 결과, 지난달 대비 매출의 증가가 800%임을 확인하였다. 전에 없던 급성장에 모두 놀랐으나, 분석팀장은 놀라움을 넘어 왜 그러한 급격한 변화가 있었는지 알아봐야 한다. 

 

진단 분석은 일반적으로 이상 감지(Anomaly Detection), 상세 확인(Drill Down) 및 상관 분석(Correlation Analysis)의 세 가지 기능을 사용한다. 

 

분석의 첫 번째 단계는 이상치, 즉 특이하게 평소 대비 벗어난 값을 찾는 것이다. 통계 방법을 사용할 수 있지만, 이번 경우에는 막대 차트를 사용해서 지난 2개월 동안의 일일 판매량을 그래프로 표시하여 흐름을 살펴본 후 이상치를 찾아도 된다. 매출이 엄청나게 높았던 특정 기간이 있는지를 확인하는 식으로 진행하면 된다. 

 

두 번째는 제품별로 판매 매출을 분류해 본다. 하나의 제품 범주에서만 매출이 급격히 증가했을 수 있다. 예를 들어, 에코백(재사용 가능한 천으로 만들어진 가방) 등 특정 제품 카테고리에서 지난 2주 동안 매출이 급격하게 증가하여 전체적인 월별 매출 증가를 주도했을 수도 있다. 이제 특정 제품 카테고리의 매출이 급격한 증가를 확인하였으니 매출 증대의 원인을 에코백 카테고리로 제한하고 상세 확인을 하면 된다. 상세 확인을 제품, 마케팅 측면에서 실시해보자.

 

- 제품에서 변화 : 최근에 에코백 판매에 영향을 미칠 수 있는 정부 규제 또는 유행 등이 있었는가? 만약 정부가 마에서 비닐봉지 사용을 금지했다면, 급격한 에코백 판매 증가가 설명된다. 

 

- 마케팅에서의 변화 : 최근에 에코백에 대한 소셜 미디어 캠페인을 시작하였다. 이로 인해 에코백에 대한 인식 전환 및 유행 덕에 판매가 급증한 것이 설명된다.

 

세 번째로 상관분석을 실시해본다. 에코백의 판매량과 전체 매출 증대의 상관관계를 찾아보는 것이다. 에코백의 판매율이 급증하였더라도 매출 금액 자체가 적다면 전체 매출에 대한 영향은 적다고 봐야 한다. 대부분의 경우, 판매가 영향을 미치는 원인은 다양하고 그 결과 또한 여러 요인의 조합이므로 다양한 가능성을 고려하는 것이 중요하다.

 

p.40~41

다음의 체크리스트를 활용하여 분석 결과와 프로세스 측면에서 데이터 분석 프로젝트를 평가 및 검증 해보자.

 

분석 결과 평가 : 데이터 분석 결과 자체를 평가 및 검토한다.

- 데이터 결과가 정확하고 오류가 존재하지 않는가?

- 데이터 분석 결과가 프로젝트 초기에 세웠던 목표와 부합하는 결과인가?

- 상식과 일반적인 관점에서 수용 가능한 결과인가?

- 결과가 의사결정에 도움이 되는가?

 

분석 프로세스 평가 : 결과를 도출하기 위해 거친 과정 자체를 평가 및 검토한 후 필요하면 수정 및 반영하도록 한다.

- 분석 과정에서 간과하거나 누락된 것이 있는가?

- 분석 과정에서 계획했던 모든 단계를 제대로 실행하였는가?

- 분석 결과 검증, 검토 후 재분석이 필요하다면 추가 및 수정이 필요한 과정은 무엇인가?

 

p.42

 

데이터 분석 시 빈번하게 하는 실수

 

1. 숫자 너머를 보지 않는다

-> 많은 이들이 분석 결과를 이해 및 해석하는 단계에서 전체 맥락을 고려하지 않고 오직 얻은 수치 자체에 집중하여 평가하곤 한다. 데이터를 종합적으로 이해하지 않으면 데이터가 말하는 메시지를 팡가할 수 없는 경우가 많다. 이런 이유로 데이터 분석을 수행하는 사람은 결과 해석에서 '무엇'이 아닌 '이유'에 대해서 끊임없이 질문해야 한다.

 

2. 문제를 잘 정의하지 않는다.

 

3. 잘못된 측정 항목에 집중한다.

 

4. 분석 전에 데이터를 정리하지 않는다.

 

5. 데이터의 계절적 변동성을 무시한다.

 

p.58~59

예를 들어, '지난달 고객 연령별 매출 현황을 보고 싶다'라고 하였을 때, 실제로 데이터를 추출하는 IT 부서의 담당자나 관리자를 위해서는 어느 정도 친절한 설명이 필요하다. 예를 들어, 다음과 같은 구체적인 정의가 필요하다.

 

- 지난달에 대한 정의 : 지난달의 기간은 1일부터 말일까지인가? 아니면 지지난달 20일부터 지난달 20일까지인가?

- 연령층에 대한 정의 : 10대, 20대, 30대로 연령을 구분하는가? 10대의 청소년층, 20~30대 청년층, 40대 이상의 중장년층을 의미하는 것인가?

- 구체적으로 어떠한 정보를 보고자 하는지에 대한 정의 : 단순 매출의 합계인가? 아니면 특정 제품 코드에 해당하는 매출을 보고 싶은 것인가? 또는 카테고리별 제품의 매출 합계를 보고 싶은 것인가?

 

이러한 작업이 필요한 것은 IT 담당자가 실제로 데이터를 추출하기 위해 구체적인 정의와 조건이 없으면 데이터를 추출할 수 없고, 임의로 데이터를 추출하면 사용자의 요구사항을 충족시킬 수 없기 때문이다.

 

p.68~69

데이터의 품질에 대해 이해하기 위해서는 데이터 무결성에 대한 이해가 필요하다.

 

한 식당에서 지난달 매출 데이터를 확보하여 분석을 수행한다고 가정해보자. 확보한 매출 데이터 세트에는 다음과 같은 정보가 포함되어 있을 것이다.

이 중에 매출 식별 번호는 판매 거래가 이뤄졌을 때 생긴 고유 번호이므로 판매 거래를 구별할 수 있는 유일한 값이어야 한다. 그런데 동일한 거래 번호를 가진 매출 거래가 여러 개 있다든지 또는 매출 거래 고유 번호가 없이 공백(null)으로 입력되어 있다면 거래 데이터 식별에 큰 문제가 생길 것이다. 또한, 판매 금액은 보통 숫자 형태 데이터이어야 하는데, '이만사천원'과 같은 문자 값이 입력되어 있다면 이 문자로 된 금액을 매출 금액으로 인정해야 할지에 대한 판단을 해야 한다. 이러한 간단한 매출 데이터뿐만 아니라 대용량의 데이터베이스를 관리하는 관점에서 기본 규칙이 지켜지지 않거나 필요한 데이터가 누락되는 등의 예외가 있다면 데이터베이스 운영에 큰 혼란을 줄 수 있다.

데이터의 형태와 관리 기본 규칙을 유지하는 것을 데이터 무결성이라고 한다.

 

p.71~74

무결성 테스트 체크리스트

 

1. 필드 검사

- 필드가 올바르게 정의되어 있는가?

- 원하는 정보의 필드가 있는가? 

- 무관한 데이터의 필드가 존재하는가?

- 손상된 데이터가 존재하는가?

 

2. 전체 행 개수 및 값 합계 검사

- 데이터 원본의 전체 열 개수와 전달받은 데이터의 전체 열 개수가 일치하는가?

- 원본 데이터 필드 중에 숫자 값이 있다면 전달받은 데이터 전체 합계와 일치하는가?

3. 데이터 유형 불일치, 값 입력 방식의 변형 및 누락된 값 확인

- 데이터 유형이 일치하지 않는가? (예를 들어, 년/월/일로 구성된 날짜 형태의 데이터 필드에 일/월/년의 데이터가 있는 경우)

- 숫자 단위 또는 통화 단위가 다른 경우가 있는가?

4. 데이터가 범위가 원하는 데이터 숫자 및 날짜 범위의 데이터인가?

- 데이터가 의도한 범위 내에 있는가 (데이터를 내림차순 또는 오름차순으로 정렬하여 확인한 결과, 요청했던 데이터 숫자 범위 또는 날짜 범위를 벗어난 경우가 있는가)?

 

5. 중복, 누락 값 및 이상 데이터 찾기

- 누락 및 중복 데이터가 있는가?

- 상식에 벗어난 이상한 데이터가 있는가?

p.103~104

막대 차트 시각화 및 발표 돋보이기

 

1. 데이터를 직관적으로 이해하기 쉽게 나열하자

2. 3차원 그래프를 남용하지 말자

3. 축의 수치는 0부터 시작하자.

4. 적합한 막대 차트 방향(수직/수평)을 설정하자

5. 색상을 활용하자

 

p.107~108

라인 차트 시각화 및 발표 돋보이기

 

1. 글자 삽입을 최소화하자

2. 여러 라인 사용 시 색상 대비를 활용하자

3. 너무 많은 라인을 차트에 넣지 말자.

 

p.112

파이 차트 시각화 및 발표 돋보이기

 

1. 5개가 넘는 항목을 비교하지 말 것

2. 3차원 파이 차트를 남용하지 말 것 

 

p.116

분산형 차트 시각화 및 발표 돋보이기

 

1. 추세선을 활용하자

2. 색상을 활용하자

 

p.147

교수님의 팁!

 

혜원 : 교수님, 데이터 세트를 열어 보니 매우 많은 변수가 행렬로 존재하는데, 이러한 변수를 각각 따로 분석해야 할까요?

교수님 : 혜원양, 그러한 방법도 좋긴 하지만 시간이 오래 걸리고 자칫 반복적인 분석 느낌이 강하게 들 수 있겠어요. 혜원양이 추가로 통합적인 변수를 만들어 보는 건 어떨까요?

혜원 : 교수님 말씀에 저도 동의합니다. 현재 데이터 세트에는 승차승객수와 하차승객수가 따로 구분되어 있는데, 이를 통합해서 승하차승객수 변수를 따로 만드는 것은 어떨까요?

교수님 : 좋은 생각이네요. 그렇게 진행해 보세요.

댓글