• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    해결됨

튜토리얼1의 2/4 강의 중 lemmatize 관련 질문드립니다

19.09.19 22:32 작성 조회수 139

1

lemmatization이란게 동음이의어가 있을 때, 문장의 앞뒤 문맥에서 단어의 의미를 찾는 것이라는 설명을 봤는데요. 여기 예제처럼 문장을 토큰화 해놓으면 앞뒤 문맥을 파악할 수 없는것 아닌지 궁금합니다! 그리고 여러가지 stemmer 들의 장단점이 있을텐데 그러한 설명도 해주셨으면 좋겠습니다! snowballstemmer를 이 상황에서 쓰신 이유같은 것이요!  

답변 1

답변을 작성해보세요.

1

안녕하세요. 좋은질문 감사합니다. 말씀하신 것 처럼 토큰화를 하게 되면 앞뒤 문맥을 보존하기 어렵습니다. 그래서 ngram이라는 것을 함께 쓰는데요. 

from sklearn.feature_extraction.text import CountVectorizer 의  ngram_range=(1, 3) 처럼 단어 벡터를 묶어서 토큰화를 합니다.

또, lemmatization 과 stemmer 의 가장 큰 차이점은 텍스트의 원형을 유지하는지 여부도 있을거 같아요.

예를 들면 movies를 lemmatization  하면 movie 로 표현하지만 stemmer는 movi 이렇게 전처리 하기도 합니다.