캐글 Advanced 머신러닝 실전 박치기

data leakage에 대해 여쭈어봅니다

2022-01-13T01:04:45.277Z

273

슈베토벤

작성한 질문수 1

apps['APPS_EXT_SOURCE_MEAN'] = apps[['EXT_SOURCE_1','EXT_SOURCE_2','EXT_SOURCE_3']].mean(axis=1)
apps['APPS_EXT_SOURCE_STD'] = apps[['EXT_SOURCE_1','EXT_SOURCE_2','EXT_SOURCE_3']].std(axis=1)
 
apps는 train과 test셋을 병합하여 만든 데이터셋인데, 평균으로 매꾸면 data leakage가 맞을까요?

머신러닝 배워볼래요? kaggle

답변 1

권 철민

2022-01-13T09:41:59.768Z

안녕하십니까,

그렇게 볼수도 있을것 같습니다. 음,, 이점을 간과했군요. data leakage 부분을 보완해서 다시 테스트 해봐야 겠군요.

좋은 지적 감사합니다.

슈베토벤

2022-01-14T02:51:00.730Z

읽어봐주셔서 감사합니다! 그래도 저는 다음 강의는 교수님의 딥러닝 강의를 수강할 겁니다 :)

권 철민

2022-01-14T03:28:14.184Z

감사합니다. ^^

sql사용

2025-10-20T07:53:47.562Z

좋은 강의 감사드립니다.

2025-07-29T17:31:59.207Z

8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문

2024-09-15T11:49:04.846Z

279

사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다

2024-08-15T11:28:01.059Z

644

안녕하세요 선생님

2024-06-28T07:45:43.376Z

247

권철민교수님 진심으로 감사드립니다.

2024-03-21T23:51:43.071Z

330

안녕하세요 선생님

2024-03-20T06:02:52.420Z

370

# credit_card_balance 데이터셋 피쳐엔지니어링

2024-03-13T22:27:19.448Z

286

초거대 데이터셋을 Submission하려면?

2024-03-10T15:49:26.678Z

205

Library 관련 질문

2024-02-26T03:37:34.436Z

383

최적화 함수 에러

2024-02-14T23:50:08.189Z

623

LightGBM Iteration관련

2024-01-29T12:50:17.751Z

449

안녕하세요 교수님 vm 관련해서 질문이 있습니다.

2024-01-11T02:31:09.240Z

220

코드를 실행했는데 오류가 발생합니다

2024-01-05T12:52:11.938Z

2033

bayes_opt 회귀 모델에 적용하려면..

2023-10-16T10:41:26.577Z

281

타겟값의 로그변환에 대해서

2023-07-08T12:27:18.060Z

808

아나콘다 환경설정

2023-06-11T01:59:51.488Z

480

깃허브 주소 문의드립니다.

2023-06-04T12:10:27.181Z

378

손실함수에 대한 질문

2023-06-02T17:07:31.343Z

359

card_bal 데이터셋 시각화 관련 질문입니다

2023-05-31T06:04:03.391Z

247

LGBM null값 처리에 관해 질문있습니다

2023-05-28T04:16:26.350Z

554

컬럼 관련 질문

2023-04-10T06:46:00.703Z

298

히스토그램 x 값

2023-04-04T01:10:50.637Z

376

n_iter 횟수 넘음 질문

2023-02-27T09:16:13.338Z

509