인프런 커뮤니티 질문&답변

Abraham님의 프로필 이미지
Abraham

작성한 질문수

캐글 Advanced 머신러닝 실전 박치기

previous_application 주요 피처 EDA 수행 - 연속형 값 분석

correlation과 Feature importance의 관계 문의

작성

·

686

0

안녕하세요. 강사님.

항상 상세하고 깊은 이해에 닿을 수 있도록 답변해 주셔서 감사합니다.

강의 중에 Target과 Feature 간에 Correlation Heatmap도 그리는 작업도 했었는데, correlation이 낮은데도 Feature importance가 높은 경우가 꽤 있는 것 같아 문의드립니다.

상식적으로 생각하면 target과의 correlation이 큰 Feature들이 feature importance도 높을거라 생각됩니다.(target과의 상관계수가 높은 Feature가 0과 1로 target을 split할 때 많이 인용될 것이므로)

그런데 아래 히트맵과 Feature importance를 볼 때, DAYS_BIRTH는 EXT_SOURCE 1, 2보다 상관계수가 절반임에도 Feature importance가 높습니다.

개인 프로젝트를 진행할 때는 이보다 훨씬 극적인 케이스들도 접하여 문의드립니다.(correlation이 0에 가까운데 Feature importance는 최상위권인 경우)

어떻게 이런게 가능할까요? correlation이 높다고 Feature importance가 높지 않을 수 있는게 신기합니다.

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

보통 correlation은 연속형 피처들 끼리 비교합니다. 물론 category 값끼리도 correlation을 구하는 방법이 있지만, 일반적으로 연속형 피처들끼리 비교하는게 보통입니다.

그런데 타겟값 0, 1을 연속형 값으로 볼수는 없습니다. classification 이기 때문입니다. 그래서 feature와 target간의 상관관계는 classification에서는 많이 감안하지 않습니다. regression에서는 충분히 감안할 수 있습니다.

feature importance역시 feature와 target간 상관도가 높으면 역시 높은 경향은 있지만 반드시 비례하지만은 않습니다. feature importance는 트리 기반에서 불확실성을 확 줄여주는 레벨로 평가를 받습니다. feature의 특정 값 범위의 따라서 확실하게 타겟값에 이를 수 있다면 상관도와 관계없이 높은 평가를 받을 수 있습니다.

감사합니다.

Abraham님의 프로필 이미지
Abraham

작성한 질문수

질문하기