inflearn logo
강의

Course

Instructor

Introduction to Machine Learning and Deep Learning Using Python

Lab - Feature Scaling

feature scaling 부분

Resolved

124

danny31261748

2 asked

0

안녕하세요. feature scaling 부분에

그래프 예시 (before, after)

에 표준정규화를 거치면 분포가 다 같아지는것처럼 그려졌는데

각각 다른 분포를 가진 데이터들이 전부 같은 분포로 바뀌게 되면 서로 다른 데이터의 의미자체를 잃어버리는것 아닌가요?

 

감사합니다.

python 머신러닝 딥러닝 pandas numpy keras tensorflow anaconda matplotlib cnn

Answer 2

1

YoungJea Oh

좋은 질문이십니다. 표준 정규화(Standardization, 즉 StandardScaler)를 적용하면 각 특징(feature)이 평균 0, 표준편차 1을 갖도록 변환됩니다. 이를 통해 분포의 형태가 변하는 것이 아니라, 스케일이 조정되는 것입니다. 정규화를 거친 후에도 각 변수들의 상대적인 차이는 유지됩니다. 단순히 값의 크기(스케일)를 맞춘 것뿐이며, 분포의 모양 자체는 변하지 않습니다. 즉, 원래 데이터의 패턴이 사라지는 것이 아닙니다. 다음의 예를 보시면 여러가지 종류의 scaling 에 의해서 값의 크기는 스케일링 기법에 따라 바뀌었지만 원래 데이터의 분포는 그대로 유지된다는 것을 알 수 있습니다.

image.png

 

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 한두혁님.

feature scaling에 대해 질문 주셨네요. 표준정규화(Standardization, Z-score scaling)는 데이터를 평균 0, 표준편차 1로 변환하여 서로 다른 스케일의 특징을 가지는 데이터를 동일한 스케일로 바꾸는 기법입니다. 하지만 이 과정에서 말 그대로 분포의 ‘형태’가 바뀌는 것이 아니라, 데이터의 ‘스케일’이 조정되는 것입니다. 이렇게 하면 다양한 특성 값 범위를 가지는 데이터를 비교하기 쉬워지고, 특히 머신러닝 알고리즘이 효율적으로 학습할 수 있습니다.

데이터의 ‘의미’가 상실되는 것이 아니라, 일반적인 스케일로 통합되어 각 특성 간의 관계가 보다 명확해질 수 있습니다. 따라서 서로 다른 분포의 데이터가 동일한 분포가 되는 것은 아닙니다. 대신, 모든 데이터를 동일한 스케일로 조정하여 비교 분석하기 용이해지는 것입니다.

관련하여 더 자세한 설명이 필요하시다면 다음 링크의 게시물을 참고해 주세요:
- Feature Scaling에 대한 의문

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

Colab실습관련

0

59

2

get_dummies 관련문의

0

63

2

강의 수강

0

73

1

섹션 10 비지도 학습에 대하여

0

66

1

훈련과 Predict를 분리할수 없나요?

0

92

2

scikit-learn이 업데이트 된 건가요?

0

158

2

MAtplotlib 기초

0

118

1

섹션9 First Autoencoder 인코더, 디코더 모델 생성 오류 해결 방법

0

196

1

섹션7 텐서플로 허브 Trained_MobileNet 모델 생성 오류 해결 방법

0

330

1

Crash 파일 위치

0

252

1

주피터에서 파일 열기

0

307

1

션 7. CNN (Convolutional Neural Network)의 7번째 강의는 실습 - FashionMNIST 데이터셋 이용 실습 문제 풀이 관련 강의 내용순서 문의

0

245

1

DBSCAN 실습 결과

0

258

1

DBSCAN 질문

0

222

1

Feature Scaling 강의 질문 있습니다!

0

250

1

heatmap에서 numeric_only=True

0

301

1

pd.Series

0

218

1

Feature Scaling

0

223

1

categorical 변수의 수치화

0

181

1

Residual Error

1

186

1

매트릭스로 만들어주는 것

1

183

1

tf.data 를 이용한 shuffling and batch 구성 관련 문의

1

366

2

타이타닉 예제에서 혼동되는 개념이있습니다!

1

278

1

LeNet-5 실습 중 loss값 nan이 나오고 있습니다.

0

659

1