본문 바로가기
CS/MachineLearning

현장에서 바로 써먹는 데이터 분석

by Diligejy 2023. 1. 1.

p.128

선형보간법(Linear Interpolation)은 끝점의 값이 주어졌을 때 그 사이에 위치한 값을 추정하기 위해 직선 거리에 따라 선형적으로 계산하는 방법입니다.

 

p.169

만약 부화장 A와 B의 병아리 몸무게 평균이 38g으로 동일하더라도 표준편차가 크면 병아리를 사육하는 데 문제가 있을 수 있습니다. 몸무게 분포가 좁은 집단은 동일한 사료를 먹고 키우더라도 성장하는 데 큰 무리가 없지만 몸무게 분포가 넓은 집단은 왜소한 병아리가 상대적으로 거대한 병아리한테 먹이를 빼앗겨 잘 먹지 못하고 있을 수 있기 때문입니다. 즉, 평균의 함정에 빠지는 문제를 보완하기 위해 데이터의 분포를 알아야 하고, 그 분포를 설명해주는 지표가 바로 표준편차입니다. 

 

p.171

지금 설명하는 병아리의 몸무게 분포 외에도 00중학교 3학년 3반 학생들의 키 분포, 00과수원에서 수확한 사과의 당도 분포 등 굉장히 다양한 데이터들이 있는데 이런 데이터가 적당히 많을 경우(일반적으로 30건 이상) 정규분포에 가까워진다는 것을 정리한 것이 바로 중심극한정리입니다. 이 중심극한정리를 이용하면 평균과 표준편차만 알고 있어도 대략적인 데이터의 분포를 알아낼 수 있기 때문에 매우 유용합니다.

 

-> 음... 표본평균의 분포가 정규분포에 가까워진다는 건데..

 

p.193

상관관계를 구하는 방법에는 피어슨(Pearson), 스피어만(Spearman) 그리고 켄달(Kendall) 3가지가 존재합니다. 스피어만 상관계수는 두 변수가 순서 또는 서열 척도인 경우 사용하며, 피어슨 상관계수가 선형적인 관계의 크기만 측정하는 것에 비해 비선형적인 관계도 나타낼 수 있습니다. 

 

p.197

회귀분석의 5가지 가정

1. 선형성 : 독립변수(x)와 종속변수(y)의 관계가 선형 관계가 있음

2. 독립성 : 잔차(residual)와 독립변수의 값이 관련없어야 함

3. 등분산성 : 독립변수의 모든 값에 대한 오차들의 분산이 일정해야 함

4. 비상관성 : 고나측치들의 잔차들끼리 상관이 없어야 함

5. 정상성 : 잔차항이 정규분포를 이뤄야 함

 

p.201

회귀분석 결과를 해석한 뒤에는 산점도를 그리고, 그 위에서 회귀직선을 표시해 모델이 데이터를 잘 설명하고 있는지 확인하는 것이 좋습니다. 

 

p.205

다중 회귀분석에서는 개별 독립변수의 p값을 더 유심히 봐야 하고, Adj. (Adjusted) R-squared로 모델이 계산을 통해 얼마나 종속변수를 잘 설명하는지 봐야 합니다. 

 

p.206

다중 회귀분석에서 변수를 선택하는 방법

 

다양한 독립변수들 중에서 적합한 변수를 선택하는 데는 3가지 방법이 있습니다. 후진소거법은 모든 변수를 포함한 상태에서 시작해 영향이 적은 변수를 하나씩 제거해 나가는 방법이고, 그 반대의 경우는 전진선택법이라고 합니다. 그리고 전진선택법과 후진소거법을 함께 사용하는 단계적 방법이 있습니다.

 

- 전진선택법(Forward Selection) : y절편만 있는 상수모형부터 시작해 독립변수를 추가해 나감

- 후진소거법(Backward Elimination) : 독립변수를 모두 포함한 상태에서 가장 적은 영향을 주는 변수를 하나씩 제거해 나감

- 단계적방법(Stepwise) : y절편만 있는 상수모형부터 시작해 독립변수를 추가해 나가지만 추가한 독립변수가 중요하지 않으면(p값이 높으면) 제거하고, 다른 독립변수를 제거해 나감

 

p.206

다중공선성 문제는 분산팽창요인(VIF, Variance Inflation Factor)을 계산해 구할 수 있는데 일반적으로 10 이상이면 다중공선성 문제가 있다고 판단하고, 30을 초과하면 심각한 다중공선성 문제가 있다고 판단합니다. 

 

 

'CS > MachineLearning' 카테고리의 다른 글

파이썬 기반 금융 인공지능  (0) 2023.03.08
2월 21일 발표 대비  (0) 2023.02.20
DeepChecks - Test ML Model  (0) 2022.12.24
머신러닝 자동화 시스템 구축  (0) 2022.12.07
How I Would Learn Data Science in 2022  (0) 2022.09.17

댓글