인프런 커뮤니티 질문&답변
feature_importance에 관하여
작성
·
622
0
안녕하세요!! 강의를 듣던 중 feature importance 에 대해 추가적으로 궁금한게 생겨서 질문드리게 되었습니다!
왜 feature importance 는 절대적인 feature selection 기준이 될 수 없는가? 에 대한 질문에 대해
feature importance는 트리 기반의 정보를 쪼개는 레벨의 중요성을 나타낸 것이라고 하셨습니다.
같은 모델이라 하더라도 트리기반모델의 하이퍼파라미터를 바꿀때마다 feature importance가 계속 달라지던데 이러한 현상은 feature importance가 한 트리기반의 모델을 쪼개는데 중요한 역할을 한 feature대로 줄을 세웠기 때문이라고 이해를 하면 될까요?
이러한 관점이라면 feature importance는 특정 모델의 특정 파라미터에서만 적용시킬 수 있으므로 절대적인 feature selection이 될 수 없다 이런식으로 이해를 하면 될까요?
feature selection을 할 때 주로 취하는 방법 또한 궁금합니다!
답변 1
0
안녕하십니까,
좋은 질문 이군요.
1. 같은 모델이라 하더라도 트리기반모델의 하이퍼파라미터를 바꿀때마다 feature importance가 계속 달라지던데 이러한 현상은 feature importance가 한 트리기반의 모델을 쪼개는데 중요한 역할을 한 feature대로 줄을 세웠기 때문이라고 이해를 하면 될까요?
=> 네, 맞습니다. 하이퍼 파라미터를 바꾸면 트리의 노드를 쪼개는 기준이 달라지게 됩니다. 그래서 fscore가 변경되어서 feature importance가 달라질 수 있습니다.
2. 이러한 관점이라면 feature importance는 특정 모델의 특정 파라미터에서만 적용시킬 수 있으므로 절대적인 feature selection이 될 수 없다 이런식으로 이해를 하면 될까요?
=> 말씀하신 관점보다는 트리기반의 모델을 쪼개는 기준으로 사용되는 fscore와 순수한 의미의 피처 중요도와 거리가 있을 수 있다는 의미로 생각해 주시면 될 것 같습니다.
그러니까 트리 모델의 브랜치 노드를 쪼개는데 자주 사용되지만 실질적으로는 타겟집합을 결정하는데 큰 역할을 하지 못할 수도 있습니다. Iris 데이터 세트같은 토이 데이터 세트에서는 대부분 트리를 나누는데 자주 사용되는 피처가 순수한 피처 중요도가 높을 수 있지만, 데이터가 다양하고 많은 피처를 가지고 있을 때는 노드를 나누는 조건이 훨씬 더 복잡해 질 수 있으며, 이경우 제대로 노드를 나누는데 여러번 사용되었지만 상대적으로 피처의 중요도는 더 떨어질 수 있는 상황이 나타날 수 있습니다. 이런 개념으로 이해해 주시면 좋을 것 같습니다.
3. feature selection을 할 때 주로 취하는 방법 또한 궁금합니다!
=> 지금 시점에서는 뒤에서 설명드리는 permutation importance 방법이 더 feature selection에 효율적인 방법이라고 생각됩니다.
감사합니다.





