inflearn logo
강의

Course

Instructor

Introduction to Machine Learning and Deep Learning Using Python

Feature Scaling

223

xoqhal5367

16 asked

0

feature scaling에서 X_test는 fit_transform이 아니라 transform만 해야한다고 하셨는데요! (logistic regression 실습 18분 부근) 어차피 X_train과 평균과 표준편차가 동일할 거라는 건 이해가 되지만, 미래 값인 X_test의 평균/표준편차를 구할 순 없다는 말씀은 이해가 잘 되지 않습니다 ㅠㅠ, 그리고 어차피 동일하다면 X_test에 fit_transform을 해도 같은 결과가 나와야 하는 거 아닌가요? 늘 감사합니다!

python 머신러닝 딥러닝 pandas numpy keras tensorflow anaconda matplotlib cnn

Answer 1

0

YoungJea Oh

테스트 데이터(X_test)에 대해서 새로운 통계값(평균, 분산)을 계산하는 fit을 수행하지 않는 이유는 모델 평가 시 테스트 데이터가 학습 과정에서 사용된 데이터와 동일한 조건에서 평가되어야 하기 때문입니다. 즉 X_train 데이터로 만든 내 모델이 실전에서 보지 못한 새로운 데이터를 입력 받았을 때 정상 처리하려면 학습 데이터에 했던 것과와 동일한 전처리(Standard Scaling 또는 MinMax Scaling)를 새로운 데이터에도 해 주어야 하는데 이때 새로운 데이터의 전처리에 적용할 평균/분산 (Standard Scaling의 경우) 또는 최대/최소값(MinMax Scaling의 경우) X_train에서 구해 놓았던 값을 그대로 사용한다는 의미 입니다. 만약 새로운 데이터의 통계적 수치가 과거 모델을 만들었던 X_train의 통계 수치와 크게 바뀌었다면 데이터의 분포가 바뀐 것이니 새로운 데이터에 맞추어 모델을 새롭게 훈련 시켜야 합니다. 그 것이 인공 지능 모델이라는 소프트웨어의 유지 보수 과정입니다. 감사합니다.

Colab실습관련

0

59

2

get_dummies 관련문의

0

63

2

강의 수강

0

73

1

섹션 10 비지도 학습에 대하여

0

66

1

훈련과 Predict를 분리할수 없나요?

0

92

2

scikit-learn이 업데이트 된 건가요?

0

158

2

feature scaling 부분

0

124

2

MAtplotlib 기초

0

118

1

섹션9 First Autoencoder 인코더, 디코더 모델 생성 오류 해결 방법

0

196

1

섹션7 텐서플로 허브 Trained_MobileNet 모델 생성 오류 해결 방법

0

330

1

Crash 파일 위치

0

252

1

주피터에서 파일 열기

0

307

1

션 7. CNN (Convolutional Neural Network)의 7번째 강의는 실습 - FashionMNIST 데이터셋 이용 실습 문제 풀이 관련 강의 내용순서 문의

0

245

1

DBSCAN 실습 결과

0

258

1

DBSCAN 질문

0

222

1

Feature Scaling 강의 질문 있습니다!

0

250

1

heatmap에서 numeric_only=True

0

301

1

pd.Series

0

218

1

categorical 변수의 수치화

0

181

1

Residual Error

1

186

1

매트릭스로 만들어주는 것

1

183

1

tf.data 를 이용한 shuffling and batch 구성 관련 문의

1

366

2

타이타닉 예제에서 혼동되는 개념이있습니다!

1

278

1

LeNet-5 실습 중 loss값 nan이 나오고 있습니다.

0

659

1