• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    해결됨

분류의 큰 그림에 대해 질문합니다.

20.09.23 11:47 작성 조회수 101

4

안녕하세요. 현재 LightGBM 파트를 공부하고 있습니다.

분류의 큰 그림이 이해가 잘 안되는데요.

분류에는 나이브 베이즈, 로지스틱 회귀, 결정트리, SVM, KNN, 신경망, 앙상블 이런 알고리즘이 있고

그 중에 하나인 앙상블 알고리즘은 보팅, 배깅, 부스팅, 스태킹으로 나뉘며

보팅에는 보팅분류기, 배깅에는 랜덤 포레스트, 부스팅에는 GBM, XGBoost, LightGBM이 있다.

그리고 보팅, 배깅, 부스팅중에서 부스팅이 가장 발전된 형태이며 

부스팅은 GBM -> XGBoost -> LightGBM으로 발전되어 왔고 따라서 가장 최신화된 방법은 LightGBM이므로 GBM, XGBoost는 이제 잘 사용하지 않고 LightGBM 주로 사용한다.

이렇게 이해하면 될까요?

답변 3

·

답변을 작성해보세요.

5

안녕하십니까,

전반적으로 잘 이해하셨습니다. 한가지 첨부하고 싶은것은 부스팅이 언제나 뛰어난 알고리즘은 아니라는 겁니다. 일반적으로 데이터 건수가 많고 피처갯수가 많으면 XGBoost, LightGBM이 다른 알고리즘 대비 조금 성능이 좋습니다.

하지만 텍스트 분류(특히 이진분류)의 경우 GBM보다 나이브베이츠, 로지스틱회귀, SVM등이 더 좋은 성능을 나타낼 수도 있습니다. 또한 랜덤포레스트 역시 훌륭한 알고리즘이라 때로는 XGBoost, LightGBM보다 더 좋은 성능을 나타낼때도 있습니다.

전반적으로 부스팅 계열이 성능이 좋지만, 언제나는 아닙니다. 다만 모든 알고리즘을 다 테스트 해보려면 시간이 오래 소모되고, 데이터 전처리 역시 상대적으로 다른 알고리즘 대비 덜 필요하기에 xgboost, lightgbm을 선호하긴 합니다.

xgboost와 lightgbm은 성능이 비슷한것 같습니다. 다만 lightgbm이 학습 시간이 상대적으로 덜 걸리기 때문에 lightgbm을 선호합니다(요즘은 xgboost보다 lightgbm이 조금 더 성능적으로 우위에 있는 느낌은 있습니다)

감사합니다.

3

좋은 평가 해주셔서 감사합니다.

0

감사합니다. 이 강의의 장점은 무엇보다 질문&답변인 것 같습니다.

게시판에 검색해보면서 여러 질문에 대한 답변에 많은 도움 받고 있습니다.

감사합니다.