표준 스케일링관련 문의

Question

표준 스케일링에 대해 설명해주시는 과정에서 표준 스케일링이 곧 정규분포로의 변환을 의미하는건 아니라는 말씀을 주셨는데,통계적 지식이 충분하지 않다보니 그 부분이 잘 이해가 되지 않아서 문의드립니다. 표준스케일링 작업을 거칠 경우, 평균이 0, 분산이 1인 표준정규분포와 동일한 조건의 분포로 변환되게 되는데 정규분포로 변환된다는 뜻이 아니라는 거는 예외의 경우가 있거나, 특별히 유의해야하는 부분이 있어서 일까요?

김화종 · Answer

안녕하세요. 데이터를 표준 스케일링하더라도 원래 데이터의 확률분포함수 (pdf)는 모양이 그대로 유지됩니다. 예를 들어, 원래 데이터가 uniform 분포이면 스케일링을 하더라도 uniform 모양을 그대로 유지합니다. 즉, pdf 모양이 정규분포처럼 바뀌는 것이 아니라, 원래 데이터 값들을 이동시켜 평균이 0, 표준편차가 1이 되도록 위치만 바꾸는 것입니다. 일부 서적에서 표준 스케일링을 하면 정규분로 변경되는 것처럼 쓰고 있으나, 이는 틀린 말입니다. 표준 스케일링과 정규분포와는 아무 상관이 없는 것입니다. 데이터의 확률 분포(모양)는 그대로 유지하면서 평균이 0, 표준편차가 1이 되도록 위치 이동만 하는 것입니다. 스케일링을 사용하는 이유는 여러 컬럼의 값들이 너무 크거나 작은 값들을 동시에 사용하면 분석(머신러닝 모델)이 잘 되지 않기 때문입니다. (모든 성적을 100점 만점으로 통일시키는 것과 같은 효과입니다). 궁금한 사항 있으면 질문해주세요~