• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

parameter의 수와 prediction power의 상관 관계

18.05.22 07:25 작성 조회수 121

0

강의 시작 부분에서 $$X_1, X_2, ... X_n$$ 처럼 parameter의 수가 많아질수록 prediction power가 강해진다고 설명해주셨는데요, 이 부분의 경우 X값과 Y값이 어느정도 상관 관계가 있을 경우에만 해당 되지 않을까요? 실제로 raw data를 다룰 때에도 큰 상관관계가 없는 parameters들은 EDA 과정에서 제거하거나 별도의 data transformation을 한다고 알고 있었습니다.

설명 해주신 부분은 위의 모든 과정이 모두 끝난 가정 하에 성립이 되는건가요 아니면, 일반적으로 위의 과정 없이도 prediction power가 강해지는건가요?

답변 부탁드립니다! 감사합니다 :)

답변 1

답변을 작성해보세요.

0

아쿠아라이드님의 프로필

아쿠아라이드

2020.07.02

교수님의 강의가 선형회귀자체의 이론보다는 머신러닝을 설명하기 위한 과정으로서 선형회귀를 설명하다보니 깊게는 들어가지 않고 넘어가신 듯 해 보입니다.

 X값과 Y값이 어느정도 상관 관계가 있을 경우에만 해당 되지 않을까요?

-->회귀분석의 이론 상  질문 하신 내용이 맞구요, 종속변수와 상관관계가 높은 독립변수만을 X 변수로 선정하되, 사실 최소의 독립변수로 최대의 설명률을 가질 수 있는 회귀모델을 일반적으로 좋은 회귀 모델로 봅니다. 결정계수보다 adjusted 결정계수를 더 의미 있게 보는 이유가 여기에 있습니다.

또한 종속변수와 독립변수간에는 상관관계가 높아야 하지만, 독립변수 끼리는 서로 상관관계가 작아야 한다는 부분도 회귀 모델 만들 때 아주 중요한 point 입니다.

만약 독립변수간에 상관관계가 높은 경우에는 다중공선성의 문제가 발생하여 회귀모델의 신뢰도가 아주 떨어질 가능성이 높아지기 때문에 (학습 데이터로 재대입  확인 시 결정계수가 높게 나오는 경우에도, 검정데이터로 확인 시 엉망인 결과가 나오는 경우가 있음) 이때는 독립변수들에 대한 주성분분석을 통한 다중공선성을 없애는 시도를 하거나, 중요도가 낮은 독립변수를 제거하는 시도를 해야 합니다.

본 예제에서는 기본적으로 주어진 모든 독립변수가 종속변수와 강한 상관관계가 있고, 각 독립변수끼리 모두 독립적이라는 가정을 깔아 놓으신 상태에서 설명을 하신 것으로 이해가 됩니다.

모든 독립변수 간에 상관관계가 0에 가까우면서 동시에 모든 독립변수가 종속변수와는 상관관계가 높은경우라면, 분명히 독립변수를 많이 사용하면 사용할 수록 예측력이 우수한 회귀 모델이 만들어진다고 말할 수 있기 때문입니다.