강의 대시보드 [2/2] XGBoost 및 우승자 인터뷰 소개, 부스팅 알고리즘으로 점수 올리기
[2/2] XGBoost 및 우승자 인터뷰 소개, 부스팅 알고리즘으로 점수 올리기
강의명 : [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
수강 기한 : 무제한
진도율 : 0강/17강 (0%) | 시간 : 0분/210분
나가기
미수강
이전수업
다음수업

소스코드 : https://github.com/corazzon/KaggleStruggle/blob/master/word2vec-nlp-tutorial/tutorial-part-4.ipynb

 

# XGBoost 소개, 캐글 우승자 인터뷰 소개, 부스팅 알고리즘을 사용해서 점수를 올려보기

 

* 2015년 캐글 블로그에 xgboost를 사용하여 17건의 우승 솔루션이 공유됨 : http://blog.kaggle.com/2015/12/03/dato-winners-interview-1st-place-mad-professors/

 

* 2016년 논문이 등록 됨 : http://dmlc.cs.washington.edu/data/pdf/XGBoostArxiv.pdf

*  공식문서 : https://xgboost.readthedocs.io/en/latest/

 

* 분산형 그래디언트 부스팅 알고리즘

* 부스팅 알고리즘은?

    * 부스팅 알고리즘은 약한 예측모형들을 결합하여 강한 예측모형을 만드는 알고리즘

    * 배깅과 유사하게 초기 샘플데이터로 다수의 분류기를 만들지만 배깅과 다르게 순차적이다.

    * 랜덤포레스트의 배깅과는 다르게 이전 트리의 오차를 보완하는 방식으로 순차적으로 트리를 만듦

    * 결정트리(Decision Tree) 알고리즘의 연장선에 있음

    * 여러 개의 결정트리를 묶어 강력한 모델을 만드는 앙상블 방법

    * 분류와 회귀에 사용할 수 있음

    * 무작위성이 없으며 강력한 사전 가지치기를 사용

    * 참고 이미지 : http://www.birc.co.kr/2017/02/06/%EC%95%99%EC%83%81%EB%B8%94ensemble-%EB%B6%80%EC%8A%A4%ED%8C%85boosting/

    * 배깅과 부스팅의 차이점은 udacity에서 설명한 영상이 가장 도움이 되었음

        * 배깅 : https://www.youtube.com/watch?v=2Mg8QD0F1dQ

        * 부스팅 : https://www.youtube.com/watch?v=GM3CDQfQ4sw

* 타이타닉 경진대회에 사용 예제가 있음

    목차 질답