inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

캐글 Advanced 머신러닝 실전 박치기

previous_application 주요 피처 EDA 수행 - 연속형 값 분석

correlation과 Feature importance의 관계 문의

794

Abraham

작성한 질문수 20

0

안녕하세요. 강사님.

항상 상세하고 깊은 이해에 닿을 수 있도록 답변해 주셔서 감사합니다.

강의 중에 Target과 Feature 간에 Correlation Heatmap도 그리는 작업도 했었는데, correlation이 낮은데도 Feature importance가 높은 경우가 꽤 있는 것 같아 문의드립니다.

상식적으로 생각하면 target과의 correlation이 큰 Feature들이 feature importance도 높을거라 생각됩니다.(target과의 상관계수가 높은 Feature가 0과 1로 target을 split할 때 많이 인용될 것이므로)

그런데 아래 히트맵과 Feature importance를 볼 때, DAYS_BIRTH는 EXT_SOURCE 1, 2보다 상관계수가 절반임에도 Feature importance가 높습니다.

개인 프로젝트를 진행할 때는 이보다 훨씬 극적인 케이스들도 접하여 문의드립니다.(correlation이 0에 가까운데 Feature importance는 최상위권인 경우)

어떻게 이런게 가능할까요? correlation이 높다고 Feature importance가 높지 않을 수 있는게 신기합니다.

kaggle 머신러닝 배워볼래요?

답변 1

0

권 철민

안녕하십니까,

보통 correlation은 연속형 피처들 끼리 비교합니다. 물론 category 값끼리도 correlation을 구하는 방법이 있지만, 일반적으로 연속형 피처들끼리 비교하는게 보통입니다.

그런데 타겟값 0, 1을 연속형 값으로 볼수는 없습니다. classification 이기 때문입니다. 그래서 feature와 target간의 상관관계는 classification에서는 많이 감안하지 않습니다. regression에서는 충분히 감안할 수 있습니다.

feature importance역시 feature와 target간 상관도가 높으면 역시 높은 경향은 있지만 반드시 비례하지만은 않습니다. feature importance는 트리 기반에서 불확실성을 확 줄여주는 레벨로 평가를 받습니다. feature의 특정 값 범위의 따라서 확실하게 타겟값에 이를 수 있다면 상관도와 관계없이 높은 평가를 받을 수 있습니다.

감사합니다.

sql사용

0

44

2

좋은 강의 감사드립니다.

0

73

2

8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문

0

246

2

사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다

0

597

1

안녕하세요 선생님

0

228

1

권철민교수님 진심으로 감사드립니다.

0

319

1

안녕하세요 선생님

0

351

1

# credit_card_balance 데이터셋 피쳐엔지니어링

0

267

1

초거대 데이터셋을 Submission하려면?

0

190

1

Library 관련 질문

0

350

3

최적화 함수 에러

0

587

4

LightGBM Iteration관련

0

422

2

안녕하세요 교수님 vm 관련해서 질문이 있습니다.

0

203

1

코드를 실행했는데 오류가 발생합니다

0

1981

2

bayes_opt 회귀 모델에 적용하려면..

0

267

1

타겟값의 로그변환에 대해서

0

779

1

아나콘다 환경설정

0

459

1

깃허브 주소 문의드립니다.

0

358

1

손실함수에 대한 질문

0

342

1

card_bal 데이터셋 시각화 관련 질문입니다

0

230

1

LGBM null값 처리에 관해 질문있습니다

0

538

1

컬럼 관련 질문

0

280

1

히스토그램 x 값

0

364

1

n_iter 횟수 넘음 질문

0

487

2