p.40
파이 차트의 유혹에 넘어가지 않기를 바란다. 특히 엑셀이 제공하는 입체 파이 차트는 절대로 이용하지 않기를 바란다. 그렇지 않으면 내가 죽어 귀신이 되면 여러분을 해칠지도 모른다. 그것들은 매우 흉측해서 데이터를 잘 표현해 주지 않는다. 그리고 입체 효과는 내가 다니는 치과 병원의 벽에 있는 조개 그림보다도 못하다.
p.68
k-평균 군집화의 목적은 공간상의 어느 점들을 선택하고, 그것들을 k개의 그룹으로 나누는 것이다(몇 개의 k군으로 나눌지는 선택할 수 있다). k개의 그룹은 달에 어떤 깃발을 고정시켜 놓고 "여기가 내 그룹의 중심이야. 이 깃발에 가깝다고 생각하면 내 곁으로 와."하고 말하는 것처럼 그 중심점으로 정의된다. 이런 그룹의 중심점(군집 중심점이라 한다)에서 k-평균이라는 이름이 유래했다.
p.71
k-평균 군집화 알고리즘은 이 세 군데 군집 중심점들을 바닥에서 반복하여 이동시키면서 최적의 상태를 찾아내게 된다.
이 "최적"이라는 것을 어떻게 측정할까? 각각의 참가자들은 군집 중심점으로부터 어느 정도 거리를 가지게 된다. 배치된 군집 중심점을 가지고 할당했을 때, 중심점으로부터 참가자들까지의 거리를 평균을 구할 수 있는데, 이 평균이 최소값이 되는 상태가 "최적"인 상태가 된다.
'Growth > 통계' 카테고리의 다른 글
Michael Crawley - Introduction to Statistics using R (1) | 2024.02.10 |
---|---|
파이썬 비즈니스 통계분석 (0) | 2024.02.04 |
메이저리그 야구 통계학 (1) | 2024.01.10 |
실전에서 바로 쓰는 시계열 처리와 분석 (0) | 2023.12.09 |
데이터 과학을 위한 통계 (1) | 2023.10.21 |
댓글