강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

greentea1495님의 프로필 이미지
greentea1495

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

회귀 실습 1: 자전거 대여(공유) 수요 예측 -02 수업중 질문있습니다!

작성

·

182

0

제가 기초수준이라 개념이 확실하지 않아 헷갈려서 질문합니다!

 

13:51초 경에서 LinearRegression 모델로 성능 평가한 뒤, 선생님께서 모델 학습을 했으니 피쳐 중요도를 보겠다고 말씀하시는 부분이 있는데, 그 뒤에 설명해주시는 객체가 coef_ 입니다ㅠ

 

질문입니다!

1. 피쳐 중요도는 feature_importance_ 이고, 분류모델과 트리계열 Regressor 모델에서만 확인 가능한 객체 아닌가요?

2. coef_(회귀계수)도 피처 중요도라고 이야기할 수 있는건가요? 아니면 회귀 계수를 말씀하시려던게 잠깐 잘못말씀하신건가요?

3. 상관계수와 피쳐 중요도는 어떤 차이가 있는건가요?

 

추가질문 드립니다.

제가 예전에 공부하면서, 다양한 scaling이나 정규화에 대해서 공부할때  테스트데이터에 대해서는 스케일링을 진행하면 안되고 오직 Train 데이터셋에서만 스케일링을 진행하고 학습해야 된다고 들었었습니다. 그런데 수업에서 모델 예측할때 log1p()된 X_test를 그대로 이용해서 prediction하는 것을 본것 같습니다.

수업에서도 설명해주셨듯, 이후 예측된 값들을 다시 expm1()함수를 이용해서 원상태로 복구만 시켜주면 테스트데이터에 대해서는 스케일링된 데이터를 사용하지 않았다고 생각할 수 있는것인가요?

 

ps. 강의 너무 잘 보고 공부하고있습니다!! 머신러닝 다 공부하고나면 CNN 강의도 결제해서 공부하려합니다 ㅎㅋㅋ!

답변 1

1

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까, 

강의 잘 보고 계시다니 저도 기쁩니다. 

저는 선형 회귀이니까, 회귀 계수가 어느정도 되는지를 보자는 의미를 문맥적으로 피처 중요도를 보자고 한것인데, 설명을 듣고 보니 충분히 헷갈리실 수 있겠군요. 

피처 중요도가 어떤 트리 기반 모델에서만 사용하는 고유 명사가 아니라 피처가 어느정도 중요한것인지를 보자는 의미였습니다.  그래서 선형회귀에서는 회귀 계수를 살펴보자는 의미로 전달드린 것이었습니다.  그렇게 이해 부탁드립니다. 

그리고 테스트 데이터에 스케일링을 적용하면 안된다는 의미가 아니라 MinMaxScaler나 StandardScaler 객체를 이용해서 테스트 데이터에 스케일링을 적용할 때 학습 데이터 기반으로 fit()된 MinMaxScaler 객체를 이용하여 테스트 데이터를 transform()을 적용해야 한다는 의미 였습니다. 그러니까, 테스트 데이터로 fit()호출하지 말라는 것이었습니다.  해당 개념은 중요한 사항이니 섹션 2의   데이터 전처리 - 스케일링-02 영상을 참조하여 이해 부탁드립니다. 

감사합니다. 

greentea1495님의 프로필 이미지
greentea1495

작성한 질문수

질문하기