[非専攻者大歓迎] キャグルデータを活用したOptuna with MLFlow

派生変数の追加とEDAの2編

데이터 전처리

解決済みの質問2022-10-17T07:58:51.861Z

329

Grid

投稿した質問数 25

안녕하세요. 강의 22분 부터 Age 결측치를 평균값으로 바꿀때, Test 데이터에 Train데이터에서 구한 그룹별 평균값을 사용하지 않고 Test 데이터를 건드려서 대체하는 이유가 있을까요? 보통 대회에서는 Test 데이터를 건드리면 안되는 걸로 알고있고, 저런식으로 전처리를 하면 Train 데이터와 Test 데이터가 같은 모집단에서 나왔는데, 서로 다른 모집단에서 나왔다고 가정해버리는것 같아서 질문드립니다.

kaggle 머신러닝 배워볼래요? EDA

回答 1

Evan

2022-10-17T09:23:33.494Z

안녕하세요. 좋은 질문 감사합니다.

우선 기본 원칙은 훈련 데이터와 테스트 데이터를 별개의 데이터로 가정하는 것이 맞습니다. 같은 모집단으로 바라보고 처리하게 되면, 모형 학습 시, Data Leakage에 빠질 가능성이 존재합니다.

또한, train 데이터의 평균값을 test 데이터에 적용하는 방법이 실제 대회에서는 맞습니다. 이 부분은 제가 작업하면서 오류가 있었네요. 수정해서 올리도록 하겠습니다.

관련해서 좋은 디스커션이 있으니 확인 바랍니다. https://www.kaggle.com/c/titanic/discussion/177536

38강 클러스터에 컨트롤러 연결 질문

2026-05-31T10:40:31.242Z

7강에 2분 쪽에 문의 있습니다.

2026-04-15T15:22:20.307Z

5강 43초 부분에서 에러가 납니다.

2026-04-14T07:28:17.511Z

db를 지우고 link 했는데 0 이 아닌 1 이 나옵니다.

2026-04-13T17:08:03.185Z

2. Kafka 설치 파일 다운받기 404 Not Found 오류 관련

2026-03-29T07:55:42.586Z

17강에 1분23초에 report_timing 쓰시고 무슨 옵션을 쓰신거가요?

2026-03-22T06:34:07.599Z

5강 14분 49초에 대해 질문

2026-03-21T11:14:19.785Z

UserSignedUpEventConsumer 에서 로그 DB 저장 문의

2026-03-16T15:40:26.576Z

'팀 단위 AI 업무 혁신' 자문 관련하여 문의드리고자 합니다. (연락처 요청)

2026-02-28T00:23:11.148Z

리더 파티션 선출 규칙에 관한 질문

2026-02-17T13:06:51.774Z

kafka 실패 후 재시도 DLT 소비 무한으로 하는 현상이 발생합니다

2026-02-01T06:55:51.280Z

167

자료 공유 질문

2026-01-26T15:25:01.339Z

resize 질문

2026-01-09T03:04:14.233Z

잘못된 이메일 주소로 인해 발송 실패 코드

2026-01-04T11:49:42.098Z

122

DC license 발급 관련 문의

2025-12-22T01:20:52.087Z

113

20251212 Kaggle 런타임에 scikit-learn 설치 실패 트러블 슈팅

2025-12-12T05:02:16.791Z

카프카 서버 관련 질문입니다.

2025-11-29T14:30:39.758Z

108

선생님 질문이 있습니다. 왜 바로 aws 설치 하시는지 궁금합니다.

2025-11-25T13:57:50.564Z

110

Ascii 에러 관련하여 질문드립니다

2025-11-25T07:02:00.560Z

고차원 데이터 질문

2025-11-25T04:02:15.844Z

Kafka 음성메세지 브로커로도 적합한가요?

2025-10-24T00:30:37.134Z

sql사용

2025-10-20T07:53:47.562Z

jupyter nbextension enable --py widgetsnbextension 에러발생

2023-12-07T12:41:25.509Z

517

ImportError: cannot import name 'plot_roc_curve

2023-07-30T09:15:18.807Z

1780