inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

실전 데이터 사이언스 Part2. 데이터 전처리

표준 스케일링관련 문의

320

정희연

작성한 질문수 1

0

표준 스케일링에 대해 설명해주시는 과정에서 표준 스케일링이 곧 정규분포로의 변환을 의미하는건 아니라는 말씀을 주셨는데,통계적 지식이 충분하지 않다보니 그 부분이 잘 이해가 되지 않아서 문의드립니다.

표준스케일링 작업을 거칠 경우, 평균이 0, 분산이 1인 표준정규분포와 동일한 조건의 분포로 변환되게 되는데 정규분포로 변환된다는 뜻이 아니라는 거는 예외의 경우가 있거나, 특별히 유의해야하는 부분이 있어서 일까요?

데이터전처리 python 표준스케일링 표준화 정규분포

답변 1

0

김화종

안녕하세요.

데이터를 표준 스케일링하더라도 원래 데이터의 확률분포함수 (pdf)는 모양이 그대로 유지됩니다. 

예를 들어, 원래 데이터가 uniform 분포이면 스케일링을 하더라도 uniform 모양을 그대로 유지합니다.

즉, pdf 모양이 정규분포처럼 바뀌는 것이 아니라, 원래 데이터 값들을 이동시켜 평균이 0, 표준편차가 1이 되도록 위치만 바꾸는 것입니다. 일부 서적에서 표준 스케일링을 하면 정규분로 변경되는 것처럼 쓰고 있으나, 이는 틀린 말입니다.

표준 스케일링과 정규분포와는 아무 상관이 없는 것입니다. 데이터의 확률 분포(모양)는 그대로 유지하면서 평균이 0, 표준편차가 1이 되도록 위치 이동만 하는 것입니다. 스케일링을 사용하는 이유는 여러 컬럼의 값들이 너무 크거나 작은 값들을 동시에 사용하면 분석(머신러닝 모델)이 잘 되지 않기 때문입니다. (모든 성적을 100점 만점으로 통일시키는 것과 같은 효과입니다).

궁금한 사항 있으면 질문해주세요~

멍슨상이라 이름 변경하시는 게 어떠신지요?

1

12

0

수업 노트가 안 보입니다.

0

14

1

Python formatter 설치

0

11

1

55강 파이썬에만있는 연산자들

0

10

1

55강의 파이썬에서만 있는 연산자들

0

9

1

주말에 실행할 경우 update_economic_data_in_background에 로직 변경 필요성

1

17

1

naver 글자 수집 오류 건

0

14

1

쥬피터 노트북이 실행이 안됩니다.

0

17

1

뒤로가기 버튼 같은 것이 있나요?

0

21

1

Replit 강의 자료가 안나와요

0

16

1

강의 연장 문의

0

18

1

프로그램 실행시간에 대한 질문

1

20

2

비중 및 매수 종목수 조정.

1

22

2

Claude api가 소식 동기화가 늦는 문제

1

35

2

[긴급요청2] 28강 동영상 오류(27강 음성 재생) 수정 예정일자를 알려주세요

0

22

1

codex에게 대용량 코드베이스를 인식 시키는 방법은 어떤게 있나요?

0

29

1

결측값 처리

0

576

1

n_step 값에 대하여

0

453

1

dir*.csv가 안됩니다.

0

329

1

6 시그마 이상 outlier

0

558

1

로그변환에 대하여

0

646

1

In[42] 14:50 코드 질문

0

249

1

Titanic 데이터셋 PClass cateogrical -> one hot encoding

0

385

1

6:14초 dataframe 스케일링한 후 컬럼 추가에 대한 질문

0

741

1