• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

상관도 관련 질문

22.02.10 13:35 작성 조회수 123

0

안녕하세요 강사님,

항상 좋은 강의와 답변에 감사드립니다.

질문 1)

9분부터 시작되는 상관도의 경우 Pearson correlation을 쓰는 것으로 알고 있는데 numerical vs. numerical 인 경우에는 해석을 할 수 있겠으나, numerical (Income) vs. categorical (Target) 혹은 categorial (남자) vs. categorical (Target) 같은 경우는 상관도의 해석을 어떻게 해야하는지 궁금합니다.

예를 들어, 다른 강의에서 다룬 <자전거 대여 예측>에서  Hour 변수를 원-핫 인코딩 변수들(categorical)로 나눈 경우, Count(continuous)와의 상관도를 Pearson으로 나타낸다면 어떻게 해석해야할까요? 또 원-핫 인코딩된 Hour_1 과 Hour_3 간의 상관도는 어떻게 해석해야할까요? Categorical vs. categorical 혹은 binary vs. binary의 경우 아예 correlation을 구하지 않는 것이 바람직한 것인가요?

질문 2)

ML 프로젝트에서 Correlation의 쓰임새에 대해서도 궁금합니다. ML은 결과를 우선으로 하기 때문에 regression의 가정을 위반하는 feature들간의 다중공선성 (multi-collinearity) 을 크게 상관하지 않는다고 하셨는데, 데이터의 사이즈가 클 경우 상관도가 높은 X 변수들을 줄이거나 합치는 용도 외에 또 다른 용도로 correlation이 어떻게 쓰이는지 알려주시면 감사하겠습니다.

답변 1

답변을 작성해보세요.

0

안녕하십니까, 

먼저 질문 2부터 답변 드리겠습니다.

음, 먼저 지난 질문의 답변에서  ML은 결과를 우선으로 하기에 다중 공선성을 크게 상관하지 않는다고 말씀을 드린게 아닙니다만,,,, 

.  지난번 질문하셨던 내용이 다중 공선성 가정을 따르고 모델을 검증해야 한다고 하셔서, ML을 가정 검증을 먼저 하실 필요 없이 모델을 만들고 모델 성능 향상을 위해서 염려 되는 부분들을 없애는 과정을 거치시는게 좋다고 말씀을 드렸습니다.

당연히 피처가 크게 늘어나서 다중 공선성 문제로 모델 성능이 떨어진다면 모델 성능을 향상 시킬 수 있게 적절하게 피처들을 선택하는 피처 엔지니어링 작업을 수행해야 합니다.  다만 다중 공선성 문제가 선형 모델을 제외하고는 XGBoost나 LightGBM에서 성능 문제를 저하시키는 주요 원인이 되지는 못합니다. 수백개 이상에서의 피처를 가져도 이들 모델에서 뛰어난 성능을 나타냅니다(물론 좋은 피처들을 선별해서 학습 시키면 당연히 성능이 좋아지지만 획기적으로 크게 좋아지지는 않습니다)

질문 1

categorical vs numeric 또는 categorical vs categorical 이든 다른 피처간의 상관도는 상관도 그대로 해석하시면 됩니다. 다만 categorical 값의 상관도는 pearson이 아니라 다른 상관도 방식을 적용합니다. 

저도 해당 유형의 상관도는 구해보질 못해서 아래에 참조하실 URL 적어 드립니다. 근데 영어입니다. 

https://www.statology.org/correlation-between-categorical-variables/

그리고 원-핫 인코딩된 Hour_1 과 Hour_3 간의 상관도간의 상관도는 배타적인 값이므로 해석하지 않습니다.