인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

Inflearn Community Q&A

김재현's profile image
김재현

asked

[Nuclear House] 2025 Big Data Analysis Article (Practical)_Type 1, 2, and 3

Assignment Practice 1 (2/2)

강의 시간 4:00에서

Written on

·

193

0

강의시간 4:00에서 standardscaler를 사용할 때,

x_val,  x_test데이터는 fit 안하고 진행해도 되는건가요??

bigdata

Answer 1

0

소확성님의 프로필 이미지
소확성
Instructor

안녕하세요. 소확성입니다!
교수님 답변전해드립니다.  

[답변]
데이터 스케일링 시에는 학습 데이터로만 fitting합니다.검증, 평가 데이터를 피팅한다는 것은 검증, 평가데이터의 분포 정보(여기서는 평균, 표준편차)를 사용한다는 것이고, 그럼 예측하려고 하는 대상의 정보를 미리 알고 있는 셈이 됩니다. 
모델링 시에는 예측 당시 알 수 없는 정보는 사용하지 않아야 하기에 학습 데이터만 피팅에 사용하는 것입니다. 
이를 '데이터 누수(data leakage)' 문제라고도 합니다.^^
 
학습에 도움이 되셨길 바랍니다.
감사합니다!
김재현's profile image
김재현

asked

Ask a question