본문 바로가기
Growth/통계

데이터 스마트

by Diligejy 2024. 2. 4.

 

 

p.40

파이 차트의 유혹에 넘어가지 않기를 바란다. 특히 엑셀이 제공하는 입체 파이 차트는 절대로 이용하지 않기를 바란다. 그렇지 않으면 내가 죽어 귀신이 되면 여러분을 해칠지도 모른다. 그것들은 매우 흉측해서 데이터를 잘 표현해 주지 않는다. 그리고 입체 효과는 내가 다니는 치과 병원의 벽에 있는 조개 그림보다도 못하다.

 

p.68

k-평균 군집화의 목적은 공간상의 어느 점들을 선택하고, 그것들을 k개의 그룹으로 나누는 것이다(몇 개의 k군으로 나눌지는 선택할 수 있다). k개의 그룹은 달에 어떤 깃발을 고정시켜 놓고 "여기가 내 그룹의 중심이야. 이 깃발에 가깝다고 생각하면 내 곁으로 와."하고 말하는 것처럼 그 중심점으로 정의된다. 이런 그룹의 중심점(군집 중심점이라 한다)에서 k-평균이라는 이름이 유래했다.

 

p.71

k-평균 군집화 알고리즘은 이 세 군데 군집 중심점들을 바닥에서 반복하여 이동시키면서 최적의 상태를 찾아내게 된다.

 

이 "최적"이라는 것을 어떻게 측정할까? 각각의 참가자들은 군집 중심점으로부터 어느 정도 거리를 가지게 된다. 배치된 군집 중심점을 가지고 할당했을 때, 중심점으로부터 참가자들까지의 거리를 평균을 구할 수 있는데, 이 평균이 최소값이 되는 상태가 "최적"인 상태가 된다.

댓글