• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

[질문]다항회귀의 이해와 다항회귀를 이용한 보스턴 주택가격 예측

22.05.10 00:04 작성 조회수 223

0

안녕하세요. "다항회귀의 이해와 다항회귀를 이용한 보스턴 주택가격 예측" 강의를 듣고 질문이 생겨서 글 남기게 되었습니다. 1. 학습 Data만 보고 다항회귀인지 아닌지 판단여부는 혹시 어떻게 할까요? 다항회귀는 선형회귀. 회귀에서 선형 회귀/비선형 회귀를 나누는 기준은 회귀 계수가 선형/비선형인지에 따른 것이지 독립변수의 선형/비선형 여부와는 무관하다. 라고 말씀해주시긴 했는데 좀 더 설명을 들을 수 있을까요? 2. 다항회귀의 단점은 degree에 따른 오버피팅인데, degree값의 경우 최적의 값을 찾기 위해선 다양한 값들을 통해서 최적의 파라미터를 찾는 것인지 아니면 degree값을 얻기 위한 다른 방법이 있을까요? 3. 다항회귀, degree값데 따라 피처들의 숫자는 매우 늘어남을 확인하였습니다. 그렇다면 만약 기존에 피처들이 너무 많다면(ex) 100개) 다항회귀로 접근하게 되면 피처들이 기하급수적으로 늘어나게 되고, 과적합등의 문제가 많기 때문에 이런 경우 접근을 어떻게 해야할까요? 감사합니다.

답변 1

답변을 작성해보세요.

0

안녕하십니까, 

1. 학습 Data만 보고 다항회귀인지 아닌지 판단여부는 혹시 어떻게 할까요? 다항회귀는 선형회귀. 회귀에서 선형 회귀/비선형 회귀를 나누는 기준은 회귀 계수가 선형/비선형인지에 따른 것이지 독립변수의 선형/비선형 여부와는 무관하다. 라고 말씀해주시긴 했는데 좀 더 설명을 들을 수 있을까요?

=> 학습 Data와 다항회귀 여부와는 관계가 없습니다만,

학습 Data만 보고 다항 회귀 여부를 판단 여부를 다른 의미로 질문하신건지요? 위의 답변이 의도하신게 아니라면 다시 질문을 재 정리해주셨으면 합니다.

선형 회귀, 비선형 회귀는 회귀계수의 선형성에 관련된 것입니다. 그러니가 X1의 제곱* W1 + X1의 삼제곱 * W2 과 같은 식이라도 회귀 계수는 X1의 제곱을 XX로, X1의 삼제곱을 XXX로 표현하면 XX * W1 + XXX * W2 로 표현될 수 있습니다. 그러니까 회귀 계수와 곱해지는 독립변수가 복잡해서 독립 변수와 종속 변수가 curved 한 관계를 가지더라도 회귀계수는 여전히 선형성을 가지기 때문에 선형 회귀 입니다.

반면에 비선형 회귀는 회귀 계수가 선형적으로 표현되기 어려운 회귀 입니다.

w1 * cos(x2 + w2) + w3*cos(2*x2 + w3) + w4와 같이 표현되는 회귀식을 비선형 회귀라 할 수 있습니다.

2. 다항회귀의 단점은 degree에 따른 오버피팅인데, degree값의 경우 최적의 값을 찾기 위해선 다양한 값들을 통해서 최적의 파라미터를 찾는 것인지 아니면 degree값을 얻기 위한 다른 방법이 있을까요?

=> 최적 degree는 시도해 보고 찾는 수밖에 없습니다. 작은 값부터 조금식 degree 값을 올려보면서 테스트 해보는 방식을 취합니다. 단 너무 높은 degree는 적용하지 않습니다.

3. 다항회귀, degree값데 따라 피처들의 숫자는 매우 늘어남을 확인하였습니다. 그렇다면 만약 기존에 피처들이 너무 많다면(ex) 100개) 다항회귀로 접근하게 되면 피처들이 기하급수적으로 늘어나게 되고, 과적합등의 문제가 많기 때문에 이런 경우 접근을 어떻게 해야할까요?

=> 일반적으로 다항회귀의 경우 너무 많은 피처들에 대해서 적용하면 피처들이 기하급수적으로 늘어나게 됩니다. 일반적으로는 중요한 2~5개 정도의 피처들만 polynomial feature 로 변환하고, 나머지 feature들을 그대로 유지하는 방식을 활용합니다.

감사합니다.