inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

캐글 Advanced 머신러닝 실전 박치기

application 데이터 세트 주요 피처 EDA 수행 - 03(상관도 및 Heatmap)

상관도 관련 질문

245

oleole

작성한 질문수 17

0

안녕하세요 강사님,

항상 좋은 강의와 답변에 감사드립니다.

질문 1)

9분부터 시작되는 상관도의 경우 Pearson correlation을 쓰는 것으로 알고 있는데 numerical vs. numerical 인 경우에는 해석을 할 수 있겠으나, numerical (Income) vs. categorical (Target) 혹은 categorial (남자) vs. categorical (Target) 같은 경우는 상관도의 해석을 어떻게 해야하는지 궁금합니다.

예를 들어, 다른 강의에서 다룬 <자전거 대여 예측>에서  Hour 변수를 원-핫 인코딩 변수들(categorical)로 나눈 경우, Count(continuous)와의 상관도를 Pearson으로 나타낸다면 어떻게 해석해야할까요? 또 원-핫 인코딩된 Hour_1 과 Hour_3 간의 상관도는 어떻게 해석해야할까요? Categorical vs. categorical 혹은 binary vs. binary의 경우 아예 correlation을 구하지 않는 것이 바람직한 것인가요?

질문 2)

ML 프로젝트에서 Correlation의 쓰임새에 대해서도 궁금합니다. ML은 결과를 우선으로 하기 때문에 regression의 가정을 위반하는 feature들간의 다중공선성 (multi-collinearity) 을 크게 상관하지 않는다고 하셨는데, 데이터의 사이즈가 클 경우 상관도가 높은 X 변수들을 줄이거나 합치는 용도 외에 또 다른 용도로 correlation이 어떻게 쓰이는지 알려주시면 감사하겠습니다.

kaggle 머신러닝 배워볼래요?

답변 1

0

권 철민

안녕하십니까, 

먼저 질문 2부터 답변 드리겠습니다.

음, 먼저 지난 질문의 답변에서  ML은 결과를 우선으로 하기에 다중 공선성을 크게 상관하지 않는다고 말씀을 드린게 아닙니다만,,,, 

.  지난번 질문하셨던 내용이 다중 공선성 가정을 따르고 모델을 검증해야 한다고 하셔서, ML을 가정 검증을 먼저 하실 필요 없이 모델을 만들고 모델 성능 향상을 위해서 염려 되는 부분들을 없애는 과정을 거치시는게 좋다고 말씀을 드렸습니다.

당연히 피처가 크게 늘어나서 다중 공선성 문제로 모델 성능이 떨어진다면 모델 성능을 향상 시킬 수 있게 적절하게 피처들을 선택하는 피처 엔지니어링 작업을 수행해야 합니다.  다만 다중 공선성 문제가 선형 모델을 제외하고는 XGBoost나 LightGBM에서 성능 문제를 저하시키는 주요 원인이 되지는 못합니다. 수백개 이상에서의 피처를 가져도 이들 모델에서 뛰어난 성능을 나타냅니다(물론 좋은 피처들을 선별해서 학습 시키면 당연히 성능이 좋아지지만 획기적으로 크게 좋아지지는 않습니다)

질문 1

categorical vs numeric 또는 categorical vs categorical 이든 다른 피처간의 상관도는 상관도 그대로 해석하시면 됩니다. 다만 categorical 값의 상관도는 pearson이 아니라 다른 상관도 방식을 적용합니다. 

저도 해당 유형의 상관도는 구해보질 못해서 아래에 참조하실 URL 적어 드립니다. 근데 영어입니다. 

https://www.statology.org/correlation-between-categorical-variables/

그리고 원-핫 인코딩된 Hour_1 과 Hour_3 간의 상관도간의 상관도는 배타적인 값이므로 해석하지 않습니다. 

 

 

sql사용

0

58

2

좋은 강의 감사드립니다.

0

82

2

8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문

0

261

2

사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다

0

621

1

안녕하세요 선생님

0

238

1

권철민교수님 진심으로 감사드립니다.

0

321

1

안녕하세요 선생님

0

358

1

# credit_card_balance 데이터셋 피쳐엔지니어링

0

273

1

초거대 데이터셋을 Submission하려면?

0

194

1

Library 관련 질문

0

356

3

최적화 함수 에러

0

598

4

LightGBM Iteration관련

0

432

2

안녕하세요 교수님 vm 관련해서 질문이 있습니다.

0

208

1

코드를 실행했는데 오류가 발생합니다

0

2000

2

bayes_opt 회귀 모델에 적용하려면..

0

270

1

타겟값의 로그변환에 대해서

0

786

1

아나콘다 환경설정

0

464

1

깃허브 주소 문의드립니다.

0

363

1

손실함수에 대한 질문

0

351

1

card_bal 데이터셋 시각화 관련 질문입니다

0

237

1

LGBM null값 처리에 관해 질문있습니다

0

545

1

컬럼 관련 질문

0

283

1

히스토그램 x 값

0

368

1

n_iter 횟수 넘음 질문

0

498

2