inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Giới thiệu về học máy và học sâu bằng Python

Thực hành - Feature Scaling

feature scaling 부분

Đã giải quyết

124

danny31261748

2 câu hỏi đã được viết

0

안녕하세요. feature scaling 부분에

그래프 예시 (before, after)

에 표준정규화를 거치면 분포가 다 같아지는것처럼 그려졌는데

각각 다른 분포를 가진 데이터들이 전부 같은 분포로 바뀌게 되면 서로 다른 데이터의 의미자체를 잃어버리는것 아닌가요?

 

감사합니다.

python 머신러닝 딥러닝 pandas numpy keras tensorflow anaconda matplotlib cnn

Câu trả lời 2

1

YoungJea Oh

좋은 질문이십니다. 표준 정규화(Standardization, 즉 StandardScaler)를 적용하면 각 특징(feature)이 평균 0, 표준편차 1을 갖도록 변환됩니다. 이를 통해 분포의 형태가 변하는 것이 아니라, 스케일이 조정되는 것입니다. 정규화를 거친 후에도 각 변수들의 상대적인 차이는 유지됩니다. 단순히 값의 크기(스케일)를 맞춘 것뿐이며, 분포의 모양 자체는 변하지 않습니다. 즉, 원래 데이터의 패턴이 사라지는 것이 아닙니다. 다음의 예를 보시면 여러가지 종류의 scaling 에 의해서 값의 크기는 스케일링 기법에 따라 바뀌었지만 원래 데이터의 분포는 그대로 유지된다는 것을 알 수 있습니다.

image.png

 

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 한두혁님.

feature scaling에 대해 질문 주셨네요. 표준정규화(Standardization, Z-score scaling)는 데이터를 평균 0, 표준편차 1로 변환하여 서로 다른 스케일의 특징을 가지는 데이터를 동일한 스케일로 바꾸는 기법입니다. 하지만 이 과정에서 말 그대로 분포의 ‘형태’가 바뀌는 것이 아니라, 데이터의 ‘스케일’이 조정되는 것입니다. 이렇게 하면 다양한 특성 값 범위를 가지는 데이터를 비교하기 쉬워지고, 특히 머신러닝 알고리즘이 효율적으로 학습할 수 있습니다.

데이터의 ‘의미’가 상실되는 것이 아니라, 일반적인 스케일로 통합되어 각 특성 간의 관계가 보다 명확해질 수 있습니다. 따라서 서로 다른 분포의 데이터가 동일한 분포가 되는 것은 아닙니다. 대신, 모든 데이터를 동일한 스케일로 조정하여 비교 분석하기 용이해지는 것입니다.

관련하여 더 자세한 설명이 필요하시다면 다음 링크의 게시물을 참고해 주세요:
- Feature Scaling에 대한 의문

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

Colab실습관련

0

59

2

get_dummies 관련문의

0

63

2

강의 수강

0

73

1

섹션 10 비지도 학습에 대하여

0

66

1

훈련과 Predict를 분리할수 없나요?

0

92

2

scikit-learn이 업데이트 된 건가요?

0

158

2

MAtplotlib 기초

0

117

1

섹션9 First Autoencoder 인코더, 디코더 모델 생성 오류 해결 방법

0

196

1

섹션7 텐서플로 허브 Trained_MobileNet 모델 생성 오류 해결 방법

0

330

1

Crash 파일 위치

0

252

1

주피터에서 파일 열기

0

307

1

션 7. CNN (Convolutional Neural Network)의 7번째 강의는 실습 - FashionMNIST 데이터셋 이용 실습 문제 풀이 관련 강의 내용순서 문의

0

245

1

DBSCAN 실습 결과

0

258

1

DBSCAN 질문

0

222

1

Feature Scaling 강의 질문 있습니다!

0

250

1

heatmap에서 numeric_only=True

0

301

1

pd.Series

0

218

1

Feature Scaling

0

223

1

categorical 변수의 수치화

0

181

1

Residual Error

1

186

1

매트릭스로 만들어주는 것

1

183

1

tf.data 를 이용한 shuffling and batch 구성 관련 문의

1

366

2

타이타닉 예제에서 혼동되는 개념이있습니다!

1

278

1

LeNet-5 실습 중 loss값 nan이 나오고 있습니다.

0

659

1