inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

PCA를 이용한 신용카드 데이터 세트의 차원 축소 실습

스케일링과 로그변환의 차이

3886

freedom07

작성한 질문수 104

0

선생님~ 

선형회귀에서 학습/예측하기 전에

타겟값이 정규분포형태를 띄지 않을 경우, 정규분포로 만들어 주기 위해 '로그변환'을 해주었잖아요~

PCA에서는 정규분포로 만들어주기 위해 
PCA를 적용할 피처들을 모두 StandardScaler를 해주는데..

공부하면서 궁금한 점이..

로그변환과 스케일링이 방식이 조금은 차이가 나지만 둘다 사용의도가 데이터 값들 간의 간극을 좁히고 정규분포 형태로 만들어주는 의미인 것 같아서..사용법에 대해서 확연한 차이가 느껴지지 않는데..

어떨 때 로그변환을 쓰고 어떨 때 스케일링을 쓰는 것이 좋은 것인지 ...궁금해지네요..

정해진 게 아닌 것 같긴한데.. 그냥 아무 상관이 없는 건지..

궁금해서 질문드립니다..!

추가적으로,

통계분석에서는 정규성검정(kolmogo-rov)같은 기능이 머신러닝에서는 있는지 궁금합니다. (선형회귀에서 타겟값의 정규 분포를 확인할 때 distplot 으로 정규분포형태인지 아닌지 확인하는 정도 인 것 같아서요..)

통계 머신러닝 배워볼래요? python

답변 2

1

권 철민

안녕하십니까,

딱 정해서 말씀드리면, 개별 feature, 또는 target의 분포도가 skew가 심하면 log 변환을 합니다. Standard Scaler는 일반적으로 선형기반의 머신러닝의 입력 (전체) 데이터들에 대해서 다 적용합니다.  보통 scaling은 전체 feature들에(카테고리성 피처 제외) 다 적용합니다. 

Skew가 심하면 로그 변환, 전체 데이터의 스케일링을 표준 정규 분포 형태로 맞추고 싶다면 Standard Scaler를 적용합니다(선형 기반의 머신러닝의 입력에서 MinMax나 Standard scaler를 선호는 합니다)

그리고 아래 질문

통계분석에서는 정규성검정(kolmogo-rov)같은 기능이 머신러닝에서는 있는지 궁금합니다.

=> 머신러닝에 있다/없다 라는 표현 보다는 정규성 검정과 데이터 세트의 분포를 검정하는 것이기 때문에 필요하면 분포 검정 패키지등을 이용해서 하면 됩니다.

R의 Q-Q Plot , sharpiro 검정과 같은 기능을 하는 것이 scipy 패키지에 있으니, 좀 더 명확하게 정규성 검정을 하고 싶으시면 scipy stat 패키지를 이용하시면 됩니다. 

음, 그리고 생각해보니, Q-Q Plot을 시각화 해주면 좀더 나은 설명이 될 수도 있겠군요. 나중에 강의/책 개편할 때 함 고민해 보겠습니다.

감사합니다.

0

freedom07

아 그렇군요..! 답변 정말 도움이 많이 되었습니다..ㅠ 너무 감사합니다 선생님!

안녕하세요 열심히 수강중인 학생입니다

0

59

2

정수 인덱싱

0

67

2

넘파이 오류

0

83

2

11강 numpy의 axis 축 질문 드립니다.

0

84

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

76

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

68

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

74

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

62

2

5강 강의 오류가 있어요.

0

82

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

71

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

68

3

파이썬 다운그레이 후 사이킷런 재설치

0

115

2

좋은 강의 감사합니다.

0

71

2

scoring 함수 음수값

0

66

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

98

2

분류 평가 정확도 예측

0

75

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

97

1

카카오톡 채널 있나요

0

105

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

187

2

pca 스케일링 관련하여 질문드립니다.

0

100

2

주피터 대신 구글 코랩

0

170

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

145

2

실루엣 스코어..

0

82

2

float64 null 값 처리 방법

0

100

2