인프런 커뮤니티 질문&답변

jhdia님의 프로필 이미지
jhdia

작성한 질문수

파이썬 텍스트 분석 입문 - 데이터 수집부터 분석까지

<실습> 워드 클라우드 만들기

형태소 분석기 관련 질문

작성

·

362

0

안녕하세요. konlpy에 여러 형태소 분석기들이 있는데 보니까 mecab이 처리 시간 기준으로 제일 빠르다는 글을 봤습니다. 그리고 형태소 분석 결과를 비교한 것도 보니까 그다지 다른 분석기에 비해 성능이 떨어지지도 않는 것 같고요. 그러면 보통 실무에서는 대용량의 비정형 데이터를 처리하게 될텐데, 그러면 일반적으로 시간을 줄이기 위해서 형태소 분석을 할 때 mecab을 쓰게 되나요? 그리고 mecab에 비해서 다른 형태소 분석기들, 특히 꼬꼬마, 코모란의 장점은 무엇인가요? 

감사합니다

답변 1

0

My Incizor님의 프로필 이미지
My Incizor
지식공유자

안녕하십니까~ 인사이저 입니다.

질문에 답변드리겠습니다.

확실히 말씀해주신 것 처럼 mecab의 처리 시간이 굉장히 빠르다보니, 데이터 분석을 진행할 때나 텍스트 분석관련 제품을 개발할 때는 mecab을 자주 사용하는 편입니다.

하지만 바로 mecab을 적용하지는 않고, konlpy에서 지원하는 다른 형태소 분석기들을 데이터 셋에 적용해보면서 느낌을 파악하는 과정을 거치고 있습니다. 데이터셋 저마다, 그리고 도출하고픈 분석 결과 저마다 필요로하는 품사 구분 및 형태소가 제각각이거든요.

즉, 처리시간을 떠나서 형태소 분석 자체는 꼬꼬마, 코모란 등등 모두 알아보신 것처럼 모두 출중한 편이라, 이렇다할 장단점을 말씀드리긴 어려울 것 같습니다 ^^;

이렇게 각자 품사의 구분이나, 특정 문장, 표현에서 형태소 분석이 작동하는 경우가 약간 씩 다르기 때문에,

  • 분석을 진행하고자 하는 텍스트 뭉치의 특성은 무엇인지(인터넷 상의 리뷰, SNS 글 인지, 뉴스 데이터인지 등)
  • 어떤 분석결과를 도출하고 싶은 지(키워드 분석 / 감정 분류 / 챗봇)

등을 파악하면서, 직접 데이터 셋을 형태소 분석해보면서 판단하는 것을 추천드리겠습니다~!

더 궁금한 사항이 있으면 언제든 질문주세요!

감사합니다~

jhdia님의 프로필 이미지
jhdia

작성한 질문수

질문하기