inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

실전 데이터 사이언스 Part2. 데이터 전처리

표준 스케일링관련 문의

304

정희연

작성한 질문수 1

0

표준 스케일링에 대해 설명해주시는 과정에서 표준 스케일링이 곧 정규분포로의 변환을 의미하는건 아니라는 말씀을 주셨는데,통계적 지식이 충분하지 않다보니 그 부분이 잘 이해가 되지 않아서 문의드립니다.

표준스케일링 작업을 거칠 경우, 평균이 0, 분산이 1인 표준정규분포와 동일한 조건의 분포로 변환되게 되는데 정규분포로 변환된다는 뜻이 아니라는 거는 예외의 경우가 있거나, 특별히 유의해야하는 부분이 있어서 일까요?

데이터전처리 python 표준스케일링 표준화 정규분포

답변 1

0

김화종

안녕하세요.

데이터를 표준 스케일링하더라도 원래 데이터의 확률분포함수 (pdf)는 모양이 그대로 유지됩니다. 

예를 들어, 원래 데이터가 uniform 분포이면 스케일링을 하더라도 uniform 모양을 그대로 유지합니다.

즉, pdf 모양이 정규분포처럼 바뀌는 것이 아니라, 원래 데이터 값들을 이동시켜 평균이 0, 표준편차가 1이 되도록 위치만 바꾸는 것입니다. 일부 서적에서 표준 스케일링을 하면 정규분로 변경되는 것처럼 쓰고 있으나, 이는 틀린 말입니다.

표준 스케일링과 정규분포와는 아무 상관이 없는 것입니다. 데이터의 확률 분포(모양)는 그대로 유지하면서 평균이 0, 표준편차가 1이 되도록 위치 이동만 하는 것입니다. 스케일링을 사용하는 이유는 여러 컬럼의 값들이 너무 크거나 작은 값들을 동시에 사용하면 분석(머신러닝 모델)이 잘 되지 않기 때문입니다. (모든 성적을 100점 만점으로 통일시키는 것과 같은 효과입니다).

궁금한 사항 있으면 질문해주세요~

한글 변수의 한글 상태를 만드는 법?

0

9

0

작업형1 모의문제 4번에 3)문제 질문

0

14

2

강의 수강 순서

0

14

1

coders 사이트 로그인이 안돼요

0

21

2

호스트 테스트 주소 복사?

0

16

1

이상치 전처리 작업

0

21

2

명령팔레트에서 오류

0

30

3

평가결과값 문의

0

26

2

Sonauto V2 text to audio

0

18

2

Part2 자료에 대한 질문입니다.

0

23

2

시계열 데이터 날짜와 시간 format

0

31

2

자동화 프로그램 프로젝트

0

21

1

도커 컨테이너 생성 과정 오류 질문입니다.

0

50

2

평가지표 F1 스코어 질문드립니다.

0

24

2

강의 일정

0

35

2

replit에서 developer frameworks가 안보여요

0

28

2

결측값 처리

0

561

1

n_step 값에 대하여

0

442

1

dir*.csv가 안됩니다.

0

317

1

6 시그마 이상 outlier

0

546

1

로그변환에 대하여

0

632

1

In[42] 14:50 코드 질문

0

240

1

Titanic 데이터셋 PClass cateogrical -> one hot encoding

0

377

1

6:14초 dataframe 스케일링한 후 컬럼 추가에 대한 질문

0

736

1