스태킹모델 예측성능 올리는 법
465
작성한 질문수 6
안녕하십니까.
수업을 듣고 연습을 하던 중 문제가 생겨서 글 남깁니다.
제가 Random Forest, LGBM으로 기기의 출력을 예측하는 과정을 하고 있는데 각각 단일 앙상블 학습보다 RF와 LGBM을 조합한 스태킹 학습을 통해 예측 성능을 높이려고 했는데 단일 앙상블 학습의 예측 성능이 MAE기준 1점 정도 더 높게 나왔습니다.
스태킹 학습을 통해 성능을 살짝만 올리면 원하는 목적에 달성할 수 있을 거 같은데 어떻게 하면 좋을까요?
현재 RF, LGBM, XGB, Linear 회귀 알고리즘을 조합하여 도전을 해봤는데도 예측성능이 오르질 않네요 ㅠㅠ
답변 1
0
안녕하십니까,
스태킹 모델이 회귀에서 성능향상이 잘 되는 경우가 많은데, 그렇다고 향상이 되는 경우가 전부가 될 수는 없습니다.
MAE 기준 1이 Baseline을 기준으로 해서 어느정도 차이가 나는지는 잘 모르겠습니다만, 큰 차이는 아닌것 같습니다.
만일 큰 차이라면 구현하신 스태킹 모델을 다시한번 재 검토 해보셔야 할 것 같습니다만, 그렇지 않은 경우 단일 모델을 적용하셔야 할 것 같습니다.
조금만 더 성능을 올리고 싶다면 HyperOpt등으로 최적 하이퍼 파라미터 튜닝을 수행해 보실 것을 권장드립니다.
그리고 xgboost와 lightgbm 각각으로 예측한 결과에 일정 계수를 곱해서 결과를 구하는 방법도 있습니다. 가령 예측 값이 xgboost로 예측한 값이 50이고 lightgbm이 51이라면 xgboost에 45% 가중치, lightgbm에 55% 가중치를 줘서(두개의 합은 반드시 100이 되어야 합니다)
최종 예측을 0.45 x 50 + 0.55 x 51 로 계산하는 방법도 있습니다. 이렇게 예측값을 계산하는 방법은 섹션 8 텍스트 분석에 실전 텍스트 분석: 05 - Mercari Price Suggestion 모델 학습과 예측, 평가 영상의 거의 마지막 부분 영상에 실려 있습니다.
감사합니다.
모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.
0
29
2
안녕하세요 열심히 수강중인 학생입니다
0
71
2
정수 인덱싱
0
73
2
넘파이 오류
0
90
2
11강 numpy의 axis 축 질문 드립니다.
0
90
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
82
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
71
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
78
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
65
2
5강 강의 오류가 있어요.
0
86
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
74
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
70
3
파이썬 다운그레이 후 사이킷런 재설치
0
122
2
좋은 강의 감사합니다.
0
76
2
scoring 함수 음수값
0
68
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
104
2
분류 평가 정확도 예측
0
82
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
100
1
카카오톡 채널 있나요
0
111
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
191
2
pca 스케일링 관련하여 질문드립니다.
0
103
2
주피터 대신 구글 코랩
0
176
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
149
2
실루엣 스코어..
0
88
2





