max_features
답변 1
0
강의에서도 말씀 드리고 있지만,
앙상블은 다수의 똑똑한 learner로 구성하는 것이 아니라 다수의 weak learner로 구성합니다. 여기서의 똑똑한 learner란 전체 피처로 학습하고, max_depth등에 제한을 하지 않거나, 개별 learner들이 샘플링하지 않고 모두 전체 데이터를 학습하는등의 역할을 수행하는 learner를 지칭합니다.
그리고 해당 weak learner들의 feature 들도 전체 피처를 수용하지 않고 일부 피처들을 서로 다르게 가져가면서 학습하면 보통 더 뛰어난 성능을 나타내는 경향이 있습니다.
실제로 테스트를 해보면, 똑똑한 learner들로 다수를 구성하면 오히려 성능이 떨어지는데, 이유로는 모델이 다양한 관점에서 데이터를 학습하지 못하는 특성을 가질 수 있기 때문입니다.
다양한 피처나 데이터 샘플링 구성이 아닌 거의 비슷한 구성으로 learner들을 구성할 경우 학습 데이터에서만 좋은 성능을 보이고, 테스트 데이터에서는 성능이 떨어지는 과적합 문제를 보이는데, 이는 똑똑한 learner들로만 구성된 모델이 학습 데이터 보다 약간 보편적인 테스트 데이터에 잘 적응을 하지 못한다고 유추해 볼 수 있습니다.
이러한 똑똑한 learner들로 앙상블로 구성시에 데이터의 변화에 대해서 제대로 대응하지 못하거나, 쉬운 문제는 풀어도 어려운 문제(다양한 패턴 인지가 필요한 문제)에 대해서 오류가 더 많아지는 현상이 나타날 수 있습니다.
때문에 max_features와 같은 다양한 하이퍼 파라미터로 보다 다양한 관점으로 데이터를 학습할 수 있도록 최적화를 하는 것입니다.
모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.
0
56
2
안녕하세요 열심히 수강중인 학생입니다
0
93
2
정수 인덱싱
0
86
2
넘파이 오류
0
115
2
11강 numpy의 axis 축 질문 드립니다.
0
109
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
97
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
81
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
83
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
75
2
5강 강의 오류가 있어요.
0
90
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
81
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
79
3
파이썬 다운그레이 후 사이킷런 재설치
0
131
2
좋은 강의 감사합니다.
0
81
2
scoring 함수 음수값
0
75
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
108
2
분류 평가 정확도 예측
0
90
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
114
1
카카오톡 채널 있나요
0
119
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
195
2
pca 스케일링 관련하여 질문드립니다.
0
109
2
주피터 대신 구글 코랩
0
184
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
156
2
실루엣 스코어..
0
93
2





