튜토리얼1의 2/4 강의 중 lemmatize 관련 질문드립니다

Question

lemmatization이란게 동음이의어가 있을 때, 문장의 앞뒤 문맥에서 단어의 의미를 찾는 것이라는 설명을 봤는데요. 여기 예제처럼 문장을 토큰화 해놓으면 앞뒤 문맥을 파악할 수 없는것 아닌지 궁금합니다! 그리고 여러가지 stemmer 들의 장단점이 있을텐데 그러한 설명도 해주셨으면 좋겠습니다! snowballstemmer를 이 상황에서 쓰신 이유같은 것이요!

Answer

안녕하세요. 좋은질문 감사합니다. 말씀하신 것 처럼 토큰화를 하게 되면 앞뒤 문맥을 보존하기 어렵습니다. 그래서 ngram이라는 것을 함께 쓰는데요.

from sklearn.feature_extraction.text import CountVectorizer 의 ngram_range=(1, 3) 처럼 단어 벡터를 묶어서 토큰화를 합니다.

또, lemmatization 과 stemmer 의 가장 큰 차이점은 텍스트의 원형을 유지하는지 여부도 있을거 같아요.

예를 들면 movies를 lemmatization 하면 movie 로 표현하지만 stemmer는 movi 이렇게 전처리 하기도 합니다.

songs

튜토리얼1의 2/4 강의 중 lemmatize 관련 질문드립니다

이 글과 비슷한 Q&A

반복문 강의에서

DBSCAN 실습 결과

DBSCAN 질문

연습 4번에서 featured 를 가져오는 방법