분류의 큰 그림에 대해 질문합니다.
안녕하세요. 현재 LightGBM 파트를 공부하고 있습니다.
분류의 큰 그림이 이해가 잘 안되는데요.
분류에는 나이브 베이즈, 로지스틱 회귀, 결정트리, SVM, KNN, 신경망, 앙상블 이런 알고리즘이 있고
그 중에 하나인 앙상블 알고리즘은 보팅, 배깅, 부스팅, 스태킹으로 나뉘며
보팅에는 보팅분류기, 배깅에는 랜덤 포레스트, 부스팅에는 GBM, XGBoost, LightGBM이 있다.
그리고 보팅, 배깅, 부스팅중에서 부스팅이 가장 발전된 형태이며
부스팅은 GBM -> XGBoost -> LightGBM으로 발전되어 왔고 따라서 가장 최신화된 방법은 LightGBM이므로 GBM, XGBoost는 이제 잘 사용하지 않고 LightGBM 주로 사용한다.
이렇게 이해하면 될까요?
답변 3
5
안녕하십니까,
전반적으로 잘 이해하셨습니다. 한가지 첨부하고 싶은것은 부스팅이 언제나 뛰어난 알고리즘은 아니라는 겁니다. 일반적으로 데이터 건수가 많고 피처갯수가 많으면 XGBoost, LightGBM이 다른 알고리즘 대비 조금 성능이 좋습니다.
하지만 텍스트 분류(특히 이진분류)의 경우 GBM보다 나이브베이츠, 로지스틱회귀, SVM등이 더 좋은 성능을 나타낼 수도 있습니다. 또한 랜덤포레스트 역시 훌륭한 알고리즘이라 때로는 XGBoost, LightGBM보다 더 좋은 성능을 나타낼때도 있습니다.
전반적으로 부스팅 계열이 성능이 좋지만, 언제나는 아닙니다. 다만 모든 알고리즘을 다 테스트 해보려면 시간이 오래 소모되고, 데이터 전처리 역시 상대적으로 다른 알고리즘 대비 덜 필요하기에 xgboost, lightgbm을 선호하긴 합니다.
xgboost와 lightgbm은 성능이 비슷한것 같습니다. 다만 lightgbm이 학습 시간이 상대적으로 덜 걸리기 때문에 lightgbm을 선호합니다(요즘은 xgboost보다 lightgbm이 조금 더 성능적으로 우위에 있는 느낌은 있습니다)
감사합니다.
안녕하세요 열심히 수강중인 학생입니다
0
61
2
정수 인덱싱
0
68
2
넘파이 오류
0
85
2
11강 numpy의 axis 축 질문 드립니다.
0
85
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
79
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
70
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
75
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
64
2
5강 강의 오류가 있어요.
0
84
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
72
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
69
3
파이썬 다운그레이 후 사이킷런 재설치
0
117
2
좋은 강의 감사합니다.
0
72
2
scoring 함수 음수값
0
67
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
100
2
분류 평가 정확도 예측
0
76
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
98
1
카카오톡 채널 있나요
0
107
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
189
2
pca 스케일링 관련하여 질문드립니다.
0
100
2
주피터 대신 구글 코랩
0
172
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
147
2
실루엣 스코어..
0
85
2
float64 null 값 처리 방법
0
102
2





