텍스트 분석에서 XGB와 LGBM 성능

Question

Text analytics에서  희소 행렬에 분류를 효과적으로 처리할 수 있는 알고리즘은 로지스틱 회귀, 선형 서포트 벡터 머신, 나이브 베이즈 등이라고 책에 적혀 있는데 텍스트 분석에서 xgboost 와 lightgbm의 성능은 어느정도인가요? 앞에 적은 모델보다는 성능이 떨어지는 경우가 많나요?

Answer

안녕하십니까,

정형 데이터와 다르게 텍스트 기반의 분류를 수행할 때 xgboost, lightgbm 성능이 생각보다 안나오는 경우들이 종종 있습니다. 많이 떨어지는건 아니고, 경험상 Logistic Regression이나 나이브 베이츠보다 살짝 성능이 떨어지는 경우가 있습니다.

case by case라 뭐라고 말씀드리기는 어렵지만, 일단 xgboost는 대량 텍스트 기반에서는 학습 시간이 너무 오래 걸려서 사용하기가 어렵습니다. LightGBM이 학습 시간이 xgboost보다 빨라서 텍스트 기반에 적용해도 좋습니다만, 순수한 텍스트 분류에서 나이브 베이츠 보다 안나오는 경우가 있습니다.

하지만 LightGBM의 경우 정형 데이터와 텍스트 데이터가 섞여 있는 경우(이후에 Mercari Price challenge 실습을 참조하십시요) logistice regression, 나이브 베이츠, 서포트 벡터 머신보다 좋은 성능을 나타낼 수 있습니다.

예찬

텍스트 분석에서 XGB와 LGBM 성능

이 글과 비슷한 Q&A

네이버쇼핑 무한스크롤 안되시는분들 모바일네이버로 실습해보세요

모의문제 작업1 데이터 불러오기

슬라이싱 할때

안녕하세요! 강의자료 부탁드리겠습니다!