-
카테고리
-
세부 분야
딥러닝 · 머신러닝
-
해결 여부
해결됨
XGBoost & LGBM 테스트 셋에 평가
22.02.01 16:21 작성 조회수 223
0
안녕하세요,
친절한 답변과 강의 감사합니다.
해당 강의와 코드에서 L1, L2에서는 get_rmses 와 get_rsme 매쏘드을 통해 test 데이터 (y_test)에 대한 검증을 진행하는데 XGBoost와 LGBM에서는 training, test 데이터를 나눴음에도 불구하고, get_best_params 매쏘드을 통해 test 데이터 (y_test)에 대한 검증을 진행하지 않고 original data인 house_df_ohe에 검증을 하는 것이 궁금해서 질문 드립니다. 혹시 제가 코드를 잘못 해석하고 있는 것이라면 정정해주시면 감사하겠습니다 ^^
답변을 작성해보세요.
1
권 철민
지식공유자2022.02.01
안녕하십니까,
음, 말씀하신 부분이 일리가 있습니다.
정석대로 한다면 학습과 테스트 데이터 세트를 분리하고 학습데이터를 get_best_params()에서 사용하는 것이 맞습니다.
다만 데이터 세트가 크지 않다보니, 학습과 테스트 세트로 분리하게 되면 GridSearchCV로 학습하게 될 데이터 량이 줄어들게 되어서, 살짝 비틀어서(?) 전체 데이터를 적용하였습니다.
데이터가 적어지고 또 전체 데이터 자체가 원래는 캐글의 학습 데이터이니, 이런 방식으로 하이퍼 파라미터 튜닝을 적용하게 된것이지만, 정석적인 차원에서는 말씀하신 대로 적용해주는게 맞습니다.
좋은 지적 감사합니다.
답변 1