inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

현업 실무자에게 배우는 Kaggle 머신러닝 입문 - ML 엔지니어 실무 꿀팁

보스턴 부동산 가격 예측 성능 향상시켜보기 (Feature Generation & Advanced Estimator)

Feature Generation에 관하여

204

전상민

작성한 질문수 7

0

안녕하세요, 좋은 강의 잘 듣고있습니다.

Feature Generation을 할 때, (Ridge같은 규제화를 적용하면서) 성능이 좋아지는 이유가 있을까요? 단지 특징들의 곱을 추가했을 뿐인데 성능 향상이 되는게 궁금합니다.

또, 만약 degree=2의 generating으로도 언더피팅이 일어날 경우 degree=3 의 generating을 하면 성능향상이 될 가능성이 있을까요?

마지막으로, Generation을 한 후에 상관관계를 파악한 뒤 Selection을 하면 대체로 성능이 증가할 까요?

답변 부탁드립니다! 감사합니다!

머신러닝 배워볼래요? kaggle EDA

답변 1

1

AISchool

네. 안녕하세요~. 반갑습니다.

Feature Generation을 할 때, (Ridge같은 규제화를 적용하면서) 성능이 좋아지는 이유가 있을까요? 단지 특징들의 곱을 추가했을 뿐인데 성능 향상이 되는게 궁금합니다.

-> 성능이 향상되느냐 아니냐는 상황에 따라 다르며, 특징들의 곱이 타겟 y값과 연관관계를 갖는 경우에 도움이 될 수 있습니다. (그렇지 않을 경우 도움이 되지 않을수도 있습니다.) 보스턴 부동산 예제의 경우 (저소득층비율*범죄율) 이런 특징이 집값 y와 연관관계를 갖기 때문에 성능이 향상된다고 생각할 수 있을 것 같습니다.

또, 만약 degree=2의 generating으로도 언더피팅이 일어날 경우 degree=3 의 generating을 하면 성능향상이 될 가능성이 있을까요?

-> 위에 말씀드린대로 성능이 향상되느냐 아니냐는 상황에 따라 다르며 말씀해주신대로 동작할 가능성도 있습니다.

마지막으로, Generation을 한 후에 상관관계를 파악한 뒤 Selection을 하면 대체로 성능이 증가할 까요?

-> 성능이 향상되느냐 아니냐는 상황에 따라 다르며^^. Selection을 통해 성능이 향상될수도 있습니다. 

머신러닝의 상당부분이 case by case 라서 딱 명확한 정답이 없다는 점은 참고부탁드립니다~.

감사합니다.

0

전상민

좋은 답변 감사드립니다~

from sklearn.datasets import load_boston

0

284

1

df.get_dummies 실행시 이진법이 아닌 false 또는 True로 반환됨.

0

267

1

선형회귀 곡선 응용편에서 alpha값이 의미하는 것은 무엇인가요?

0

216

1

수업자료 요청 skahffk94@naver.com

0

174

1

실습중에 주가_데이터.T.loc T는 무엇인가요?

0

162

1

parsererror

0

345

1

강의자료 요청드립니다.

0

243

1

강의자료

0

425

2

강의 자료 요청

0

197

1

AX_list 문법이 궁금합니다

0

464

1

요청: 강의자료 부탁드립니다

0

224

0

블로그 업로드 관련

0

242

1

강의 자료좀 부탁드립니다

0

267

0

강의자료 부탁드립니다.

0

193

0

강의자료

0

198

0

dataframe을 csv파일로 저장시

0

202

1

ax_list의 의미가 궁금합니다.

0

264

1

11강 7분 34초 부근 질문

0

182

1

categorical object

0

200

1

PolynomialFeatures

0

204

0

one hot encoding

0

215

1

데이터 갯수가 100K 의미

0

270

1

결정트리 지룸ㄴ

0

235

1

LinearRegression

0

291

0