본문 바로가기
CS/MachineLearning

Must Have 머신러닝·딥러닝 문제해결 전략

by Diligejy 2022. 4. 14.

 

 

p.158

 

XGBoost와 LightGBM의 특장점 

 

1. 피처 스케일링이 따로 필요 없습니다. 데이터의 절대적인 크기보다는 대소 관계에 영향을 받기 때문입니다. 

2. 레이블 인코딩을 적용해도 됩니다. 레이블 인코딩은 단점이 있다고 했지만, 트리 기반 모델의 특성상 분기를 거듭하면서 레이블 인코딩된 피처에서도 정보를 잘 추출할 수 있기 때문입니다. 

3. 결측값을 알아서 처리해줍니다(그럼에도 더 명확하게 하려면 결측값을 별도로 처리하는 습관을 들이는 게 바람직합니다) 

 

반면 선형 모델은 피처 스케일링, 결측값 처리, 원-핫 인코딩을 해줘야 일반적으로 성능이 좋아집니다.

 

댓글