inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

캐글 Advanced 머신러닝 실전 박치기

data leakage에 대해 여쭈어봅니다

270

슈베토벤

작성한 질문수 1

0

 
apps['APPS_EXT_SOURCE_MEAN'] = apps[['EXT_SOURCE_1','EXT_SOURCE_2','EXT_SOURCE_3']].mean(axis=1)
apps['APPS_EXT_SOURCE_STD'] = apps[['EXT_SOURCE_1','EXT_SOURCE_2','EXT_SOURCE_3']].std(axis=1)
 
apps는 train과 test셋을 병합하여 만든 데이터셋인데, 평균으로 매꾸면 data leakage가 맞을까요?

머신러닝 배워볼래요? kaggle

답변 1

1

권 철민

안녕하십니까, 

그렇게 볼수도 있을것 같습니다. 음,, 이점을 간과했군요.  data leakage 부분을 보완해서 다시 테스트 해봐야 겠군요. 

좋은 지적 감사합니다. 

0

슈베토벤

읽어봐주셔서 감사합니다! 그래도 저는 다음 강의는 교수님의 딥러닝 강의를 수강할 겁니다 :)

0

권 철민

감사합니다. ^^

sql사용

0

58

2

좋은 강의 감사드립니다.

0

82

2

8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문

0

261

2

사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다

0

621

1

안녕하세요 선생님

0

238

1

권철민교수님 진심으로 감사드립니다.

0

321

1

안녕하세요 선생님

0

358

1

# credit_card_balance 데이터셋 피쳐엔지니어링

0

273

1

초거대 데이터셋을 Submission하려면?

0

194

1

Library 관련 질문

0

357

3

최적화 함수 에러

0

598

4

LightGBM Iteration관련

0

432

2

안녕하세요 교수님 vm 관련해서 질문이 있습니다.

0

208

1

코드를 실행했는데 오류가 발생합니다

0

2000

2

bayes_opt 회귀 모델에 적용하려면..

0

270

1

타겟값의 로그변환에 대해서

0

786

1

아나콘다 환경설정

0

464

1

깃허브 주소 문의드립니다.

0

364

1

손실함수에 대한 질문

0

351

1

card_bal 데이터셋 시각화 관련 질문입니다

0

237

1

LGBM null값 처리에 관해 질문있습니다

0

546

1

컬럼 관련 질문

0

283

1

히스토그램 x 값

0

369

1

n_iter 횟수 넘음 질문

0

500

2