강의

멘토링

커뮤니티

Inflearn コミュニティ Q&A

hojung70980235 のプロフィール画像
hojung70980235

投稿した質問数

[非専攻者大歓迎] キャグルデータを活用したOptuna with MLFlow

派生変数の追加とEDAの2編

데이터 전처리

解決済みの質問

作成

·

306

0

안녕하세요. 강의 22분 부터 Age 결측치를 평균값으로 바꿀때, Test 데이터에 Train데이터에서 구한 그룹별 평균값을 사용하지 않고 Test 데이터를 건드려서 대체하는 이유가 있을까요? 보통 대회에서는 Test 데이터를 건드리면 안되는 걸로 알고있고, 저런식으로 전처리를 하면 Train 데이터와 Test 데이터가 같은 모집단에서 나왔는데, 서로 다른 모집단에서 나왔다고 가정해버리는것 같아서 질문드립니다.

kaggle머신러닝 배워볼래요? EDA

回答 1

0

Evan님의 프로필 이미지
Evan
インストラクター

안녕하세요. 좋은 질문 감사합니다.

우선 기본 원칙은 훈련 데이터와 테스트 데이터를 별개의 데이터로 가정하는 것이 맞습니다. 같은 모집단으로 바라보고 처리하게 되면, 모형 학습 시, Data Leakage에 빠질 가능성이 존재합니다.

또한, train 데이터의 평균값을 test 데이터에 적용하는 방법이 실제 대회에서는 맞습니다. 이 부분은 제가 작업하면서 오류가 있었네요. 수정해서 올리도록 하겠습니다.

관련해서 좋은 디스커션이 있으니 확인 바랍니다. https://www.kaggle.com/c/titanic/discussion/177536

hojung70980235 のプロフィール画像
hojung70980235

投稿した質問数

質問する