스태킹모델 예측성능 올리는 법

Question

안녕하십니까. 수업을 듣고 연습을 하던 중 문제가 생겨서 글 남깁니다. 제가 Random Forest, LGBM으로 기기의 출력을 예측하는 과정을 하고 있는데 각각 단일 앙상블 학습보다 RF와 LGBM을 조합한 스태킹 학습을 통해 예측 성능을 높이려고 했는데 단일 앙상블 학습의 예측 성능이 MAE기준 1점 정도 더 높게 나왔습니다. 스태킹 학습을 통해 성능을 살짝만 올리면 원하는 목적에 달성할 수 있을 거 같은데 어떻게 하면 좋을까요? 현재 RF, LGBM, XGB, Linear 회귀 알고리즘을 조합하여 도전을 해봤는데도 예측성능이 오르질 않네요 ㅠㅠ

권 철민 · Answer

안녕하십니까, 스태킹 모델이 회귀에서 성능향상이 잘 되는 경우가 많은데, 그렇다고 향상이 되는 경우가 전부가 될 수는 없습니다. MAE 기준 1이 Baseline을 기준으로 해서 어느정도 차이가 나는지는 잘 모르겠습니다만, 큰 차이는 아닌것 같습니다. 만일 큰 차이라면 구현하신 스태킹 모델을 다시한번 재 검토 해보셔야 할 것 같습니다만, 그렇지 않은 경우 단일 모델을 적용하셔야 할 것 같습니다. 조금만 더 성능을 올리고 싶다면 HyperOpt등으로 최적 하이퍼 파라미터 튜닝을 수행해 보실 것을 권장드립니다. 그리고 xgboost와 lightgbm 각각으로 예측한 결과에 일정 계수를 곱해서 결과를 구하는 방법도 있습니다. 가령 예측 값이 xgboost로 예측한 값이 50이고 lightgbm이 51이라면 xgboost에 45% 가중치, lightgbm에 55% 가중치를 줘서(두개의 합은 반드시 100이 되어야 합니다) 최종 예측을 0.45 x 50 + 0.55 x 51 로 계산하는 방법도 있습니다. 이렇게 예측값을 계산하는 방법은 섹션 8 텍스트 분석에 실전 텍스트 분석: 05 - Mercari Price Suggestion 모델 학습과 예측, 평가 영상의 거의 마지막 부분 영상에 실려 있습니다. 감사합니다.