• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

랜덤포레스트와 변수중요도(feature importance)

20.11.28 18:51 작성 조회수 804

0

선생님 안녕하세요. 랜덤포레스트의 변수 중요도와 관련한 질문입니다. 

개인적으로 공부를 해봤을 때, 변수 중요도는 데이터의 차원축소를 하는 방법중 하나로 알고 있습니다. 즉, 차원축소에 변수 추출과 변인선택으로 구분되는데 그중 트리기반 알고리즘을 통한 변수 중요도는 변인 선택에 포함되어있다고 알고 있습니다.

만약 변수중요도를 기반으로 차원축소를 하고 싶을 때, 변수중요도에 따른 변수를 선택하는 기준이 있을까요? 어느 블로그에는 상위10개 또는 12개를 선택하는데 단순히 개인적 판단으로 이루어 지나요?

답변 1

답변을 작성해보세요.

0

안녕하십니까,

네, feature selection의 기법중에 feature importance를 적용하는 방법이 있습니다.

feature selection은 만일 수백개 이상의 feature들이 있다면 많은 feature들로 인하여 오히려 예측 성능이 저하될 수 있을 때 중요한 feature들만 selection하여 예측 성능을 향상하기 위함입니다.

하지만 최근 알고리즘들은 수백개의 feature들로 이뤄진 데이터 세트라도 뛰어난 예측 성능을 나타내고, 오히려 feature selection을 통해서 feature들을 줄일 경우 성능 저하가 발생하기 쉽습니다.

이런 의미로 feature selection은 차원 축소에 사용될 수 있으며, 이를 위해 feature importance가 중요한 순서대로 feature들을 selection할 수 있습니다. 그런데 이게 상위 몇개인지는 뭐라 정할 수 없습니다. 특히 feature importance를 기준으로 feature selection을 적용할 때 여러 문제들이 나타날 수 있습니다.

이에 대한 설명이 조금 길것 같아서 섹션 4 분류의 후반부 강의에 가시면 몇달전에 신규 강의로 feature selection에 대해서 추가한 동영상을 참조 부탁드립니다.

질문에 대한 답을 요약 드리면, feature importance에 기반하여 feature selection을 적용하는 특정 기준은 없습니다. 다만 feature importance의 우선 순위에 기반하는 경향은 있지만, 이 또한 여러 이슈를 잠재하고 있습니다(동영상 참조).

감사합니다.