XGBoost & LGBM 테스트 셋에 평가

Question

안녕하세요,

친절한 답변과 강의 감사합니다.

해당 강의와 코드에서 L1, L2에서는 get_rmses 와 get_rsme 매쏘드을 통해 test 데이터 (y_test)에 대한 검증을 진행하는데 XGBoost와 LGBM에서는 training, test 데이터를 나눴음에도 불구하고, get_best_params 매쏘드을 통해 test 데이터 (y_test)에 대한 검증을 진행하지 않고 original data인 house_df_ohe에 검증을 하는 것이 궁금해서 질문 드립니다. 혹시 제가 코드를 잘못 해석하고 있는 것이라면 정정해주시면 감사하겠습니다 ^^

Answer

안녕하십니까,

음, 말씀하신 부분이 일리가 있습니다.

정석대로 한다면 학습과 테스트 데이터 세트를 분리하고 학습데이터를 get_best_params()에서 사용하는 것이 맞습니다.

다만 데이터 세트가 크지 않다보니, 학습과 테스트 세트로 분리하게 되면 GridSearchCV로 학습하게 될 데이터 량이 줄어들게 되어서, 살짝 비틀어서(?) 전체 데이터를 적용하였습니다.

데이터가 적어지고 또 전체 데이터 자체가 원래는 캐글의 학습 데이터이니, 이런 방식으로 하이퍼 파라미터 튜닝을 적용하게 된것이지만, 정석적인 차원에서는 말씀하신 대로 적용해주는게 맞습니다.

좋은 지적 감사합니다.

oleole

XGBoost & LGBM 테스트 셋에 평가

이 글과 비슷한 Q&A

7회 기출 소문제 2-1 궁금합니다!

PyCharm 내 Python Console 사용 질문

핸드폰으로 자동 클릭안됩니다.

강의자료 요청드립니다.