강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

sea123님의 프로필 이미지
sea123

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

feature_importance에 관하여

작성

·

622

0

안녕하세요!! 강의를 듣던 중 feature importance 에 대해 추가적으로 궁금한게 생겨서 질문드리게 되었습니다!

 

왜 feature importance 는 절대적인 feature selection 기준이 될 수 없는가? 에 대한 질문에 대해

feature importance는 트리 기반의 정보를 쪼개는 레벨의 중요성을 나타낸 것이라고 하셨습니다.

같은 모델이라 하더라도 트리기반모델의 하이퍼파라미터를 바꿀때마다 feature importance가 계속 달라지던데 이러한 현상은  feature importance가 한 트리기반의 모델을 쪼개는데 중요한 역할을 한 feature대로 줄을 세웠기 때문이라고 이해를 하면 될까요? 

이러한 관점이라면 feature importance는 특정 모델의 특정 파라미터에서만 적용시킬 수 있으므로 절대적인 feature selection이 될 수 없다 이런식으로 이해를 하면 될까요? 

feature selection을 할 때 주로 취하는 방법 또한 궁금합니다! 

 

 

 

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까, 

좋은 질문 이군요. 

1. 같은 모델이라 하더라도 트리기반모델의 하이퍼파라미터를 바꿀때마다 feature importance가 계속 달라지던데 이러한 현상은  feature importance가 한 트리기반의 모델을 쪼개는데 중요한 역할을 한 feature대로 줄을 세웠기 때문이라고 이해를 하면 될까요? 

=> 네, 맞습니다. 하이퍼 파라미터를 바꾸면 트리의 노드를 쪼개는 기준이 달라지게 됩니다. 그래서  fscore가 변경되어서 feature importance가 달라질 수 있습니다. 

2. 이러한 관점이라면 feature importance는 특정 모델의 특정 파라미터에서만 적용시킬 수 있으므로 절대적인 feature selection이 될 수 없다 이런식으로 이해를 하면 될까요? 

=> 말씀하신 관점보다는 트리기반의 모델을 쪼개는 기준으로 사용되는 fscore와 순수한 의미의 피처 중요도와 거리가 있을 수 있다는 의미로 생각해 주시면 될 것 같습니다. 

그러니까 트리 모델의 브랜치 노드를 쪼개는데 자주 사용되지만 실질적으로는 타겟집합을 결정하는데 큰 역할을 하지 못할 수도 있습니다. Iris 데이터 세트같은 토이 데이터 세트에서는 대부분 트리를 나누는데 자주 사용되는 피처가 순수한 피처 중요도가 높을 수 있지만, 데이터가 다양하고 많은 피처를 가지고 있을 때는 노드를 나누는 조건이 훨씬 더 복잡해 질 수 있으며, 이경우 제대로 노드를 나누는데 여러번 사용되었지만 상대적으로 피처의 중요도는 더 떨어질 수 있는 상황이 나타날 수 있습니다. 이런 개념으로 이해해 주시면 좋을 것 같습니다. 

3. feature selection을 할 때 주로 취하는 방법 또한 궁금합니다! 

=> 지금 시점에서는 뒤에서 설명드리는 permutation importance 방법이 더 feature selection에 효율적인 방법이라고 생각됩니다. 

 

감사합니다. 

sea123님의 프로필 이미지
sea123

작성한 질문수

질문하기