데이터 전처리
안녕하세요. 강의 22분 부터 Age 결측치를 평균값으로 바꿀때, Test 데이터에 Train데이터에서 구한 그룹별 평균값을 사용하지 않고 Test 데이터를 건드려서 대체하는 이유가 있을까요? 보통 대회에서는 Test 데이터를 건드리면 안되는 걸로 알고있고, 저런식으로 전처리를 하면 Train 데이터와 Test 데이터가 같은 모집단에서 나왔는데, 서로 다른 모집단에서 나왔다고 가정해버리는것 같아서 질문드립니다.
回答 1
0
안녕하세요. 좋은 질문 감사합니다.
우선 기본 원칙은 훈련 데이터와 테스트 데이터를 별개의 데이터로 가정하는 것이 맞습니다. 같은 모집단으로 바라보고 처리하게 되면, 모형 학습 시, Data Leakage에 빠질 가능성이 존재합니다.
또한, train 데이터의 평균값을 test 데이터에 적용하는 방법이 실제 대회에서는 맞습니다. 이 부분은 제가 작업하면서 오류가 있었네요. 수정해서 올리도록 하겠습니다.
관련해서 좋은 디스커션이 있으니 확인 바랍니다. https://www.kaggle.com/c/titanic/discussion/177536
7강에 2분 쪽에 문의 있습니다.
0
13
2
5강 43초 부분에서 에러가 납니다.
0
20
2
db를 지우고 link 했는데 0 이 아닌 1 이 나옵니다.
0
20
1
2. Kafka 설치 파일 다운받기 404 Not Found 오류 관련
0
59
2
17강에 1분23초에 report_timing 쓰시고 무슨 옵션을 쓰신거가요?
0
34
1
5강 14분 49초에 대해 질문
0
48
1
UserSignedUpEventConsumer 에서 로그 DB 저장 문의
0
51
2
'팀 단위 AI 업무 혁신' 자문 관련하여 문의드리고자 합니다. (연락처 요청)
0
30
1
리더 파티션 선출 규칙에 관한 질문
0
69
2
kafka 실패 후 재시도 DLT 소비 무한으로 하는 현상이 발생합니다
1
141
2
자료 공유 질문
0
55
1
resize 질문
0
50
1
잘못된 이메일 주소로 인해 발송 실패 코드
0
107
3
DC license 발급 관련 문의
0
95
2
20251212 Kaggle 런타임에 scikit-learn 설치 실패 트러블 슈팅
0
75
1
카프카 서버 관련 질문입니다.
0
89
2
선생님 질문이 있습니다. 왜 바로 aws 설치 하시는지 궁금합니다.
0
98
2
Ascii 에러 관련하여 질문드립니다
0
77
1
고차원 데이터 질문
0
49
0
Kafka 음성메세지 브로커로도 적합한가요?
0
78
2
sql사용
0
46
2
재시도조차 실패한 메시지 사후 처리하기
1
110
2
jupyter nbextension enable --py widgetsnbextension 에러발생
0
507
1
ImportError: cannot import name 'plot_roc_curve
0
1756
1

