텍스트 분석에서 XGB와 LGBM 성능
449
작성한 질문수 30
Text analytics에서 희소 행렬에 분류를 효과적으로 처리할 수 있는 알고리즘은 로지스틱 회귀, 선형 서포트 벡터 머신, 나이브 베이즈 등이라고 책에 적혀 있는데 텍스트 분석에서 xgboost 와 lightgbm의 성능은 어느정도인가요? 앞에 적은 모델보다는 성능이 떨어지는 경우가 많나요?
답변 1
1
안녕하십니까,
정형 데이터와 다르게 텍스트 기반의 분류를 수행할 때 xgboost, lightgbm 성능이 생각보다 안나오는 경우들이 종종 있습니다. 많이 떨어지는건 아니고, 경험상 Logistic Regression이나 나이브 베이츠보다 살짝 성능이 떨어지는 경우가 있습니다.
case by case라 뭐라고 말씀드리기는 어렵지만, 일단 xgboost는 대량 텍스트 기반에서는 학습 시간이 너무 오래 걸려서 사용하기가 어렵습니다. LightGBM이 학습 시간이 xgboost보다 빨라서 텍스트 기반에 적용해도 좋습니다만, 순수한 텍스트 분류에서 나이브 베이츠 보다 안나오는 경우가 있습니다.
하지만 LightGBM의 경우 정형 데이터와 텍스트 데이터가 섞여 있는 경우(이후에 Mercari Price challenge 실습을 참조하십시요) logistice regression, 나이브 베이츠, 서포트 벡터 머신보다 좋은 성능을 나타낼 수 있습니다.
모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.
0
55
2
안녕하세요 열심히 수강중인 학생입니다
0
91
2
정수 인덱싱
0
86
2
넘파이 오류
0
113
2
11강 numpy의 axis 축 질문 드립니다.
0
107
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
96
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
79
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
83
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
75
2
5강 강의 오류가 있어요.
0
90
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
81
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
79
3
파이썬 다운그레이 후 사이킷런 재설치
0
131
2
좋은 강의 감사합니다.
0
80
2
scoring 함수 음수값
0
74
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
108
2
분류 평가 정확도 예측
0
90
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
114
1
카카오톡 채널 있나요
0
119
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
193
2
pca 스케일링 관련하여 질문드립니다.
0
109
2
주피터 대신 구글 코랩
0
184
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
156
2
실루엣 스코어..
0
93
2





