-
카테고리
-
세부 분야
데이터 분석
-
해결 여부
해결됨
튜토리얼1의 2/4 강의 중 lemmatize 관련 질문드립니다
19.09.19 22:32 작성 조회수 139
1
lemmatization이란게 동음이의어가 있을 때, 문장의 앞뒤 문맥에서 단어의 의미를 찾는 것이라는 설명을 봤는데요. 여기 예제처럼 문장을 토큰화 해놓으면 앞뒤 문맥을 파악할 수 없는것 아닌지 궁금합니다! 그리고 여러가지 stemmer 들의 장단점이 있을텐데 그러한 설명도 해주셨으면 좋겠습니다! snowballstemmer를 이 상황에서 쓰신 이유같은 것이요!
답변을 작성해보세요.
1
박조은
지식공유자2019.09.22
안녕하세요. 좋은질문 감사합니다. 말씀하신 것 처럼 토큰화를 하게 되면 앞뒤 문맥을 보존하기 어렵습니다. 그래서 ngram이라는 것을 함께 쓰는데요.
from sklearn.feature_extraction.text import CountVectorizer 의 ngram_range=(1, 3) 처럼 단어 벡터를 묶어서 토큰화를 합니다.
또, lemmatization 과 stemmer 의 가장 큰 차이점은 텍스트의 원형을 유지하는지 여부도 있을거 같아요.
예를 들면 movies를 lemmatization 하면 movie 로 표현하지만 stemmer는 movi 이렇게 전처리 하기도 합니다.
답변 1