인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

인프런 커뮤니티 질문&답변

김재현님의 프로필 이미지
김재현

작성한 질문수

[핵집] 2025 빅데이터 분석기사(실기)_작업형 1·2·3유형

과제 실습1 (2/2)

강의 시간 4:00에서

작성

·

206

0

강의시간 4:00에서 standardscaler를 사용할 때,

x_val,  x_test데이터는 fit 안하고 진행해도 되는건가요??

답변 1

0

소확성님의 프로필 이미지
소확성
지식공유자

안녕하세요. 소확성입니다!
교수님 답변전해드립니다.  

[답변]
데이터 스케일링 시에는 학습 데이터로만 fitting합니다.검증, 평가 데이터를 피팅한다는 것은 검증, 평가데이터의 분포 정보(여기서는 평균, 표준편차)를 사용한다는 것이고, 그럼 예측하려고 하는 대상의 정보를 미리 알고 있는 셈이 됩니다. 
모델링 시에는 예측 당시 알 수 없는 정보는 사용하지 않아야 하기에 학습 데이터만 피팅에 사용하는 것입니다. 
이를 '데이터 누수(data leakage)' 문제라고도 합니다.^^
 
학습에 도움이 되셨길 바랍니다.
감사합니다!
김재현님의 프로필 이미지
김재현

작성한 질문수

질문하기