• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    해결됨

XGBoost & LGBM 테스트 셋에 평가

22.02.01 16:21 작성 조회수 223

0

안녕하세요,

친절한 답변과 강의 감사합니다.

해당 강의와 코드에서 L1, L2에서는 get_rmses 와 get_rsme 매쏘드을 통해 test 데이터 (y_test)에 대한 검증을 진행하는데 XGBoost와 LGBM에서는 training, test 데이터를 나눴음에도 불구하고, get_best_params 매쏘드을 통해 test 데이터 (y_test)에 대한 검증을 진행하지 않고 original data인 house_df_ohe에 검증을 하는 것이 궁금해서 질문 드립니다. 혹시 제가 코드를 잘못 해석하고 있는 것이라면 정정해주시면 감사하겠습니다 ^^

답변 1

답변을 작성해보세요.

1

안녕하십니까, 

음, 말씀하신 부분이 일리가 있습니다. 

정석대로 한다면 학습과 테스트 데이터 세트를 분리하고 학습데이터를  get_best_params()에서 사용하는 것이 맞습니다. 

다만 데이터 세트가 크지 않다보니, 학습과 테스트 세트로 분리하게 되면 GridSearchCV로 학습하게 될 데이터 량이 줄어들게 되어서, 살짝 비틀어서(?) 전체 데이터를 적용하였습니다. 

데이터가 적어지고 또 전체 데이터 자체가 원래는 캐글의 학습 데이터이니, 이런 방식으로 하이퍼 파라미터 튜닝을 적용하게 된것이지만, 정석적인 차원에서는 말씀하신 대로 적용해주는게 맞습니다. 

좋은 지적 감사합니다.