inflearn logo
강의

Khóa học

Chia sẻ kiến thức

[Bản sửa đổi] Hướng dẫn hoàn hảo về máy học Python

Bài tập giảm kích thước cho tập dữ liệu thẻ tín dụng bằng PCA

스케일링과 로그변환의 차이

3892

freedom07

104 câu hỏi đã được viết

0

선생님~ 

선형회귀에서 학습/예측하기 전에

타겟값이 정규분포형태를 띄지 않을 경우, 정규분포로 만들어 주기 위해 '로그변환'을 해주었잖아요~

PCA에서는 정규분포로 만들어주기 위해 
PCA를 적용할 피처들을 모두 StandardScaler를 해주는데..

공부하면서 궁금한 점이..

로그변환과 스케일링이 방식이 조금은 차이가 나지만 둘다 사용의도가 데이터 값들 간의 간극을 좁히고 정규분포 형태로 만들어주는 의미인 것 같아서..사용법에 대해서 확연한 차이가 느껴지지 않는데..

어떨 때 로그변환을 쓰고 어떨 때 스케일링을 쓰는 것이 좋은 것인지 ...궁금해지네요..

정해진 게 아닌 것 같긴한데.. 그냥 아무 상관이 없는 건지..

궁금해서 질문드립니다..!

추가적으로,

통계분석에서는 정규성검정(kolmogo-rov)같은 기능이 머신러닝에서는 있는지 궁금합니다. (선형회귀에서 타겟값의 정규 분포를 확인할 때 distplot 으로 정규분포형태인지 아닌지 확인하는 정도 인 것 같아서요..)

통계 머신러닝 배워볼래요? python

Câu trả lời 2

1

dooleyz3525

안녕하십니까,

딱 정해서 말씀드리면, 개별 feature, 또는 target의 분포도가 skew가 심하면 log 변환을 합니다. Standard Scaler는 일반적으로 선형기반의 머신러닝의 입력 (전체) 데이터들에 대해서 다 적용합니다.  보통 scaling은 전체 feature들에(카테고리성 피처 제외) 다 적용합니다. 

Skew가 심하면 로그 변환, 전체 데이터의 스케일링을 표준 정규 분포 형태로 맞추고 싶다면 Standard Scaler를 적용합니다(선형 기반의 머신러닝의 입력에서 MinMax나 Standard scaler를 선호는 합니다)

그리고 아래 질문

통계분석에서는 정규성검정(kolmogo-rov)같은 기능이 머신러닝에서는 있는지 궁금합니다.

=> 머신러닝에 있다/없다 라는 표현 보다는 정규성 검정과 데이터 세트의 분포를 검정하는 것이기 때문에 필요하면 분포 검정 패키지등을 이용해서 하면 됩니다.

R의 Q-Q Plot , sharpiro 검정과 같은 기능을 하는 것이 scipy 패키지에 있으니, 좀 더 명확하게 정규성 검정을 하고 싶으시면 scipy stat 패키지를 이용하시면 됩니다. 

음, 그리고 생각해보니, Q-Q Plot을 시각화 해주면 좀더 나은 설명이 될 수도 있겠군요. 나중에 강의/책 개편할 때 함 고민해 보겠습니다.

감사합니다.

0

freedom07

아 그렇군요..! 답변 정말 도움이 많이 되었습니다..ㅠ 너무 감사합니다 선생님!

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

29

2

안녕하세요 열심히 수강중인 학생입니다

0

71

2

정수 인덱싱

0

74

2

넘파이 오류

0

90

2

11강 numpy의 axis 축 질문 드립니다.

0

90

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

82

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

71

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

78

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

65

2

5강 강의 오류가 있어요.

0

86

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

74

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

70

3

파이썬 다운그레이 후 사이킷런 재설치

0

122

2

좋은 강의 감사합니다.

0

76

2

scoring 함수 음수값

0

68

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

104

2

분류 평가 정확도 예측

0

82

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

100

1

카카오톡 채널 있나요

0

111

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

191

2

pca 스케일링 관련하여 질문드립니다.

0

103

2

주피터 대신 구글 코랩

0

176

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

149

2

실루엣 스코어..

0

88

2