스케일링과 로그변환의 차이
3886
작성한 질문수 104
선생님~
선형회귀에서 학습/예측하기 전에
타겟값이 정규분포형태를 띄지 않을 경우, 정규분포로 만들어 주기 위해 '로그변환'을 해주었잖아요~
PCA에서는 정규분포로 만들어주기 위해
PCA를 적용할 피처들을 모두 StandardScaler를 해주는데..
공부하면서 궁금한 점이..
로그변환과 스케일링이 방식이 조금은 차이가 나지만 둘다 사용의도가 데이터 값들 간의 간극을 좁히고 정규분포 형태로 만들어주는 의미인 것 같아서..사용법에 대해서 확연한 차이가 느껴지지 않는데..
어떨 때 로그변환을 쓰고 어떨 때 스케일링을 쓰는 것이 좋은 것인지 ...궁금해지네요..
정해진 게 아닌 것 같긴한데.. 그냥 아무 상관이 없는 건지..
궁금해서 질문드립니다..!
추가적으로,
통계분석에서는 정규성검정(kolmogo-rov)같은 기능이 머신러닝에서는 있는지 궁금합니다. (선형회귀에서 타겟값의 정규 분포를 확인할 때 distplot 으로 정규분포형태인지 아닌지 확인하는 정도 인 것 같아서요..)
답변 2
1
안녕하십니까,
딱 정해서 말씀드리면, 개별 feature, 또는 target의 분포도가 skew가 심하면 log 변환을 합니다. Standard Scaler는 일반적으로 선형기반의 머신러닝의 입력 (전체) 데이터들에 대해서 다 적용합니다. 보통 scaling은 전체 feature들에(카테고리성 피처 제외) 다 적용합니다.
Skew가 심하면 로그 변환, 전체 데이터의 스케일링을 표준 정규 분포 형태로 맞추고 싶다면 Standard Scaler를 적용합니다(선형 기반의 머신러닝의 입력에서 MinMax나 Standard scaler를 선호는 합니다)
그리고 아래 질문
통계분석에서는 정규성검정(kolmogo-rov)같은 기능이 머신러닝에서는 있는지 궁금합니다.
=> 머신러닝에 있다/없다 라는 표현 보다는 정규성 검정과 데이터 세트의 분포를 검정하는 것이기 때문에 필요하면 분포 검정 패키지등을 이용해서 하면 됩니다.
R의 Q-Q Plot , sharpiro 검정과 같은 기능을 하는 것이 scipy 패키지에 있으니, 좀 더 명확하게 정규성 검정을 하고 싶으시면 scipy stat 패키지를 이용하시면 됩니다.
음, 그리고 생각해보니, Q-Q Plot을 시각화 해주면 좀더 나은 설명이 될 수도 있겠군요. 나중에 강의/책 개편할 때 함 고민해 보겠습니다.
감사합니다.
안녕하세요 열심히 수강중인 학생입니다
0
59
2
정수 인덱싱
0
67
2
넘파이 오류
0
83
2
11강 numpy의 axis 축 질문 드립니다.
0
84
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
76
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
68
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
74
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
62
2
5강 강의 오류가 있어요.
0
82
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
71
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
68
3
파이썬 다운그레이 후 사이킷런 재설치
0
115
2
좋은 강의 감사합니다.
0
71
2
scoring 함수 음수값
0
66
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
98
2
분류 평가 정확도 예측
0
75
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
97
1
카카오톡 채널 있나요
0
105
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
187
2
pca 스케일링 관련하여 질문드립니다.
0
100
2
주피터 대신 구글 코랩
0
170
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
145
2
실루엣 스코어..
0
82
2
float64 null 값 처리 방법
0
100
2





