inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

feature_importance에 관하여

636

sea123

작성한 질문수 3

0

안녕하세요!! 강의를 듣던 중 feature importance 에 대해 추가적으로 궁금한게 생겨서 질문드리게 되었습니다!

 

왜 feature importance 는 절대적인 feature selection 기준이 될 수 없는가? 에 대한 질문에 대해

feature importance는 트리 기반의 정보를 쪼개는 레벨의 중요성을 나타낸 것이라고 하셨습니다.

같은 모델이라 하더라도 트리기반모델의 하이퍼파라미터를 바꿀때마다 feature importance가 계속 달라지던데 이러한 현상은  feature importance가 한 트리기반의 모델을 쪼개는데 중요한 역할을 한 feature대로 줄을 세웠기 때문이라고 이해를 하면 될까요? 

이러한 관점이라면 feature importance는 특정 모델의 특정 파라미터에서만 적용시킬 수 있으므로 절대적인 feature selection이 될 수 없다 이런식으로 이해를 하면 될까요? 

feature selection을 할 때 주로 취하는 방법 또한 궁금합니다! 

 

 

 

통계 python 머신러닝 배워볼래요?

답변 1

0

권 철민

안녕하십니까, 

좋은 질문 이군요. 

1. 같은 모델이라 하더라도 트리기반모델의 하이퍼파라미터를 바꿀때마다 feature importance가 계속 달라지던데 이러한 현상은  feature importance가 한 트리기반의 모델을 쪼개는데 중요한 역할을 한 feature대로 줄을 세웠기 때문이라고 이해를 하면 될까요? 

=> 네, 맞습니다. 하이퍼 파라미터를 바꾸면 트리의 노드를 쪼개는 기준이 달라지게 됩니다. 그래서  fscore가 변경되어서 feature importance가 달라질 수 있습니다. 

2. 이러한 관점이라면 feature importance는 특정 모델의 특정 파라미터에서만 적용시킬 수 있으므로 절대적인 feature selection이 될 수 없다 이런식으로 이해를 하면 될까요? 

=> 말씀하신 관점보다는 트리기반의 모델을 쪼개는 기준으로 사용되는 fscore와 순수한 의미의 피처 중요도와 거리가 있을 수 있다는 의미로 생각해 주시면 될 것 같습니다. 

그러니까 트리 모델의 브랜치 노드를 쪼개는데 자주 사용되지만 실질적으로는 타겟집합을 결정하는데 큰 역할을 하지 못할 수도 있습니다. Iris 데이터 세트같은 토이 데이터 세트에서는 대부분 트리를 나누는데 자주 사용되는 피처가 순수한 피처 중요도가 높을 수 있지만, 데이터가 다양하고 많은 피처를 가지고 있을 때는 노드를 나누는 조건이 훨씬 더 복잡해 질 수 있으며, 이경우 제대로 노드를 나누는데 여러번 사용되었지만 상대적으로 피처의 중요도는 더 떨어질 수 있는 상황이 나타날 수 있습니다. 이런 개념으로 이해해 주시면 좋을 것 같습니다. 

3. feature selection을 할 때 주로 취하는 방법 또한 궁금합니다! 

=> 지금 시점에서는 뒤에서 설명드리는 permutation importance 방법이 더 feature selection에 효율적인 방법이라고 생각됩니다. 

 

감사합니다. 

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

56

2

안녕하세요 열심히 수강중인 학생입니다

0

92

2

정수 인덱싱

0

86

2

넘파이 오류

0

114

2

11강 numpy의 axis 축 질문 드립니다.

0

109

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

96

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

79

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

83

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

5강 강의 오류가 있어요.

0

90

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

81

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

79

3

파이썬 다운그레이 후 사이킷런 재설치

0

131

2

좋은 강의 감사합니다.

0

80

2

scoring 함수 음수값

0

74

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

108

2

분류 평가 정확도 예측

0

90

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

114

1

카카오톡 채널 있나요

0

119

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

194

2

pca 스케일링 관련하여 질문드립니다.

0

109

2

주피터 대신 구글 코랩

0

184

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

156

2

실루엣 스코어..

0

93

2