inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

[질문]다항회귀의 이해와 다항회귀를 이용한 보스턴 주택가격 예측

353

김재연

작성한 질문수 6

0

안녕하세요. "다항회귀의 이해와 다항회귀를 이용한 보스턴 주택가격 예측" 강의를 듣고 질문이 생겨서 글 남기게 되었습니다. 1. 학습 Data만 보고 다항회귀인지 아닌지 판단여부는 혹시 어떻게 할까요? 다항회귀는 선형회귀. 회귀에서 선형 회귀/비선형 회귀를 나누는 기준은 회귀 계수가 선형/비선형인지에 따른 것이지 독립변수의 선형/비선형 여부와는 무관하다. 라고 말씀해주시긴 했는데 좀 더 설명을 들을 수 있을까요? 2. 다항회귀의 단점은 degree에 따른 오버피팅인데, degree값의 경우 최적의 값을 찾기 위해선 다양한 값들을 통해서 최적의 파라미터를 찾는 것인지 아니면 degree값을 얻기 위한 다른 방법이 있을까요? 3. 다항회귀, degree값데 따라 피처들의 숫자는 매우 늘어남을 확인하였습니다. 그렇다면 만약 기존에 피처들이 너무 많다면(ex) 100개) 다항회귀로 접근하게 되면 피처들이 기하급수적으로 늘어나게 되고, 과적합등의 문제가 많기 때문에 이런 경우 접근을 어떻게 해야할까요? 감사합니다.

python 통계 머신러닝 배워볼래요?

답변 1

0

권 철민

안녕하십니까, 

1. 학습 Data만 보고 다항회귀인지 아닌지 판단여부는 혹시 어떻게 할까요? 다항회귀는 선형회귀. 회귀에서 선형 회귀/비선형 회귀를 나누는 기준은 회귀 계수가 선형/비선형인지에 따른 것이지 독립변수의 선형/비선형 여부와는 무관하다. 라고 말씀해주시긴 했는데 좀 더 설명을 들을 수 있을까요?

=> 학습 Data와 다항회귀 여부와는 관계가 없습니다만,

학습 Data만 보고 다항 회귀 여부를 판단 여부를 다른 의미로 질문하신건지요? 위의 답변이 의도하신게 아니라면 다시 질문을 재 정리해주셨으면 합니다.

선형 회귀, 비선형 회귀는 회귀계수의 선형성에 관련된 것입니다. 그러니가 X1의 제곱* W1 + X1의 삼제곱 * W2 과 같은 식이라도 회귀 계수는 X1의 제곱을 XX로, X1의 삼제곱을 XXX로 표현하면 XX * W1 + XXX * W2 로 표현될 수 있습니다. 그러니까 회귀 계수와 곱해지는 독립변수가 복잡해서 독립 변수와 종속 변수가 curved 한 관계를 가지더라도 회귀계수는 여전히 선형성을 가지기 때문에 선형 회귀 입니다.

반면에 비선형 회귀는 회귀 계수가 선형적으로 표현되기 어려운 회귀 입니다.

w1 * cos(x2 + w2) + w3*cos(2*x2 + w3) + w4와 같이 표현되는 회귀식을 비선형 회귀라 할 수 있습니다.

2. 다항회귀의 단점은 degree에 따른 오버피팅인데, degree값의 경우 최적의 값을 찾기 위해선 다양한 값들을 통해서 최적의 파라미터를 찾는 것인지 아니면 degree값을 얻기 위한 다른 방법이 있을까요?

=> 최적 degree는 시도해 보고 찾는 수밖에 없습니다. 작은 값부터 조금식 degree 값을 올려보면서 테스트 해보는 방식을 취합니다. 단 너무 높은 degree는 적용하지 않습니다.

3. 다항회귀, degree값데 따라 피처들의 숫자는 매우 늘어남을 확인하였습니다. 그렇다면 만약 기존에 피처들이 너무 많다면(ex) 100개) 다항회귀로 접근하게 되면 피처들이 기하급수적으로 늘어나게 되고, 과적합등의 문제가 많기 때문에 이런 경우 접근을 어떻게 해야할까요?

=> 일반적으로 다항회귀의 경우 너무 많은 피처들에 대해서 적용하면 피처들이 기하급수적으로 늘어나게 됩니다. 일반적으로는 중요한 2~5개 정도의 피처들만 polynomial feature 로 변환하고, 나머지 feature들을 그대로 유지하는 방식을 활용합니다.

감사합니다.

 

 

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

56

2

안녕하세요 열심히 수강중인 학생입니다

0

93

2

정수 인덱싱

0

86

2

넘파이 오류

0

116

2

11강 numpy의 axis 축 질문 드립니다.

0

109

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

98

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

82

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

83

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

5강 강의 오류가 있어요.

0

90

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

81

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

79

3

파이썬 다운그레이 후 사이킷런 재설치

0

131

2

좋은 강의 감사합니다.

0

82

2

scoring 함수 음수값

0

77

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

108

2

분류 평가 정확도 예측

0

90

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

114

1

카카오톡 채널 있나요

0

119

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

195

2

pca 스케일링 관련하여 질문드립니다.

0

109

2

주피터 대신 구글 코랩

0

184

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

156

2

실루엣 스코어..

0

93

2