Growth/통계

데이터 스마트

Diligejy 2024. 2. 4. 13:40

 

 

p.40

파이 차트의 유혹에 넘어가지 않기를 바란다. 특히 엑셀이 제공하는 입체 파이 차트는 절대로 이용하지 않기를 바란다. 그렇지 않으면 내가 죽어 귀신이 되면 여러분을 해칠지도 모른다. 그것들은 매우 흉측해서 데이터를 잘 표현해 주지 않는다. 그리고 입체 효과는 내가 다니는 치과 병원의 벽에 있는 조개 그림보다도 못하다.

 

p.68

k-평균 군집화의 목적은 공간상의 어느 점들을 선택하고, 그것들을 k개의 그룹으로 나누는 것이다(몇 개의 k군으로 나눌지는 선택할 수 있다). k개의 그룹은 달에 어떤 깃발을 고정시켜 놓고 "여기가 내 그룹의 중심이야. 이 깃발에 가깝다고 생각하면 내 곁으로 와."하고 말하는 것처럼 그 중심점으로 정의된다. 이런 그룹의 중심점(군집 중심점이라 한다)에서 k-평균이라는 이름이 유래했다.

 

p.71

k-평균 군집화 알고리즘은 이 세 군데 군집 중심점들을 바닥에서 반복하여 이동시키면서 최적의 상태를 찾아내게 된다.

 

이 "최적"이라는 것을 어떻게 측정할까? 각각의 참가자들은 군집 중심점으로부터 어느 정도 거리를 가지게 된다. 배치된 군집 중심점을 가지고 할당했을 때, 중심점으로부터 참가자들까지의 거리를 평균을 구할 수 있는데, 이 평균이 최소값이 되는 상태가 "최적"인 상태가 된다.