inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

선형 회귀모델을 위한 데이터 변환

로그변환과 평가지표에 대해서

1026

예찬

작성한 질문수 30

0

결론을 말하자면

  1. 빅마트의 매출 예측 데이터의 경우 왜 로그변환 후 비정상적으로 오류 예측값이 줄었는가
  2. 책 370페이지에 경우에는 로그 변환후 타깃값에 단위가 확 줄었는데 어떻게 오류 예측값이 RMSE : 162 ,MAE : 109로 크게 나올수 있는가

스케일링과 평가지표에 대해 제가 몇가지 빠트리고 이해를 한거같은데 아무리 검색해봐도 잘 모르겠습니다 ㅠㅠ 

캐글 빅마트 매출 데이터 : https://www.kaggle.com/datasets/brijbhushannanda1979/bigmart-sales-data?datasetId=9961&sortBy=voteCount

아래 사진은 로그 변환후 histplot과 예측 성능,로그 변환 전 hisplot과 예측 성능입니다

python 머신러닝 배워볼래요? 통계

답변 1

0

권 철민

1. 음, 로그 변환은 오른쪽 Skew일때만 적용해 주셔야 합니다. 왼쪽 skew일때는 일반적으로 적용하지 않습니다.  왼쪽 skew일때는 정규 분포 형태로 만들어지지 않기 때문입니다. 

2. 그리고 예측 오류값이 확 줄어든 이유는 로그변환된 타겟값을 기반으로 학습과 예측을 한 경우에는 반드시 지수변환으로 변경하여 실제 테스트 데이터와 비교하여 RMSE를 적용해야 하는데 이게 적용이 안된것 같습니다.  학습과 예측 데이터를 모두 Log 변환한 데이터인데 검증하는 테스트 데이터도 타겟값을 로그 변환하였다면 당연히 오류값이 확 줄어듭니다. 

0

예찬

감사합니다 ㅠㅠ! 혹시 2번째 사진이 로그변환 하기 전인데 오른쪽 skew이지 않나요?그리고 왼쪽 Skew일 경우엔 로그 변환 외 다른 스케일링/정규화 작업도 해주면 안되는건가요? 마지막으로 cross_val_score의 경우에는 로그변환 되있는 타깃값을 어떻게 넣어줘야하나요?

0

권 철민

왼쪽 Skew일때는 보통 power 변환(제곱으로 곱해줌)을 하는데 큰 효과가 없습니다. 그냥 아무것도 적용하지 않는것이 보통입니다. 

cross_val_score()로는 로그 변환되어 있는 타겟값으로 적용해서 다시 지수변환하기가 쉽지 않습니다. Kfold로 수행하시는게 좋습니다. 

0

예찬

감사합니다. 질문을 못보신거같아 다시 질문드립니다 !  2번째 사진이 로그변환 하기 전으로 오른쪽 Skew인거 같은데 다른 여러 분들 코드를 봐도 저 레이블 셋을 로그 변환한 코드는 없어서요 그 이유가 궁금합니다

0

권 철민

원래 질문 적으신것은 왼쪽 skew라고 적으셨군요. 

오른쪽 skew이면 타겟값의 로그 변환을 적용해 주는 것이 더 좋습니다. 다른 코드를 더 찾아보면 로그 변환한 코드가 있을 것 입니다.  다른 사람이 적은 코드가 없어도 로그 변환을 적용해 주면 최소한 적용 전 보다 성능이 더 나아질 확률이 많습니다. 

0

예찬

넵 감사합니다 !!

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

56

2

안녕하세요 열심히 수강중인 학생입니다

0

93

2

정수 인덱싱

0

86

2

넘파이 오류

0

115

2

11강 numpy의 axis 축 질문 드립니다.

0

109

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

97

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

80

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

83

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

5강 강의 오류가 있어요.

0

90

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

81

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

79

3

파이썬 다운그레이 후 사이킷런 재설치

0

131

2

좋은 강의 감사합니다.

0

81

2

scoring 함수 음수값

0

75

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

108

2

분류 평가 정확도 예측

0

90

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

114

1

카카오톡 채널 있나요

0

119

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

195

2

pca 스케일링 관련하여 질문드립니다.

0

109

2

주피터 대신 구글 코랩

0

184

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

156

2

실루엣 스코어..

0

93

2