본문 바로가기
Growth/통계

데이터 과학자의 가설사고

by Diligejy 2024. 2. 17.

 

 

p.19

데이터 과학자는 데이터를 파악할 때 데이터를 읽는 목적과 데이터에 있는 배경을 생각합니다. 예를 들어 편의점 매출 데이터를 파악할 때도 '왜 그 상품이 이 시간대에 팔렸는가를 생각하면서 데이터와 마주하지요.

 

p.28-29

 

세 점포의 평균값은 같지만, 막대 그래프로 보면 경향이 다르다는 사실을 알 수 있습니다. A점포는 평일 매출이 적고, 주말 매출이 많습니다. 근처에 돔구장이 있기 떄문에 주말에 개최되는 이벤트의 영향으로 매출이 늘어난 것으로 추측됩니다. A점포는 주말 매출이 매우 크기에 일주일 평균 판매 개수도 그 영향으로 커졌습니다.

 

이에 반해 B점포는 주말에 비해 평일 매출이 많습니다. B점포는 오피스 거리에 있기 떄문에 근처 사무실에 근무하는 사람이 많이 구입할 것으로 추측할 수 있습니다. 평일 판매 개수는 일주일 평균값(100개)보다 많음에도 불구하고, 주말 판매 개수가 적어서 다른 점포와 평균 판매 개수가 같습니다.

 

C점포는 평균과 주말의 차이가 거의 없습니다. 역 앞이라 편의성이 높은 점포이기에 요일에 따른 차이가 적은 것으로 보입니다. 

 

이처럼 대푯값만으로 판단하면 데이터의 특징을 놓칠 가능성이 있습니다. 데이터 과학자는 데이터를 대푯값만으로 판단하기보단, 실제 데이터의 분포를 관찰해서 해당 데이터의 특징을 간파해야 합니다.

 

p.31-33

 

이 분포를 보면 중앙에 움푹한 부분이 있습니다. 데이터 과학자는 이러한 분포를 봤을 때 '왜 데이터에 움푹한 곳이 있을까?'하며 데이터에 움푹한 곳이 있는 배경에 관해 생각합니다. 이 사례에서는 '17세 키니까 남녀 차이가 있는 게 아닐까?'라는 가설을 세워볼 수 있습니다. 남녀별로 색깔을 나눠보면 다음 그림과 같습니다. 남성이 여성보다 키가 더 큰 경향이 있는 것 같습니다. 

 

 

 

여기서 남녀별로 데이터를 나눠서 분포를 확인해보며녀 여성은 158cm 언저리에, 남성은 170cm 언저리에 정점이 있다는 사실을 알 수 있습니다. 

 

 

여기서는 남녀별 분포를 조사함으로써 움푹한 곳의 원인이 '남녀 차'때문이라는 사실을 확인할 수 있었습니다. 이처럼 복수의 분ㅍ포가 합쳐져 하나의 분포가 된 사례도 있기 때문에 데이터 과학자는 항상 '데이터가 발생한 배경'이나 '관측된 배경'을 의식하면서 데이터를 마주해야 합니다.

 

p.39

사자의 식사량을 눈여겨보면 4월 3일과 4월 10일 식사량이 0kg입닌다. 사자 사육 담당자의 이야기를 들어보니 내장 상태를 조절하기 위해 일주일에 한 번, 금식일을 마련하고 있다고 합니다. 따라서 이 0kg이라는 값은 결측이 아닙니다. 이처럼 표면적으로 결측 이유를 판단할 것이 아니라 값의 배경에 있는 이유를 조사하는 것이 중요합니다.

 

p.72

비교 대상이 2021년 11월 1일이니까 전년도 2020년 11월 1일과 비교하면 되느냐 하면 그리 단순하지는 않습니다. 2021년 11월 첫째 주의 매출 데이터를 보면 이 편의점의 평일 매출은 괜찮지만, 주말 매출은 그리 좋지 못하다는 사실을 알 수 있습니다. 편의점이나 마트 등의 소매업에서는 평일과 휴일의 매출이 크게 달라집니다. 편의점이나 마트의 입지에 따라서 평일 매출이 많은지 휴일 매출이 많은지 여부가 다르다 보니 요일에 따라 매출 차이가 나는 경우가 대부분입니다.

 

그래서 소매업에서는 매출 데이터를 전년도와 비교할 때 같은 주의 같은 요일과 비교하는 것이 일반적입니다. 전년도의 같은 주 같은 요일과 비교해야 합니다.

 

p.74

데이터 과학자는 항상 '이 숫자는 분해할 수 없을까?'를 생각하며 데이터를 대합니다. 

 

p.101

애초에 왜 데이터를 그룹으로 나눠야 할까요? 그것은 대량의 데이터를 몇 개의 그룹으로 나눠 생각하면 데이터를 파악 비교하기 쉬워지기 때문입니다. 

 

p.102

대량의 데이터의 특징을 파악할 때는 특징이 비슷한 데이터끼리 모아서 그룹을 만드는 것이 매우 중요합니다. 데이터 과학자는 특징이 비슷한 데이터를 그룹으로 모음으로써 대량의 데이터 안에서 필요한 것을 찾아내기 쉽게 만듭니다.

 

p.117

데이터를 분류할 때는 사전에 데이터를 분류하는 목적을 확실하게 정해두는 것이 중요합니다. 그 목적에 비추어 적절하게 그룹 나누기를 했는지 여부로 분류 결과가 좋고 나쁜지를 판단합니다.

댓글