인프런 커뮤니티 질문&답변
튜토리얼1의 2/4 강의 중 lemmatize 관련 질문드립니다
해결된 질문
작성
·
229
답변 1
1
박조은
지식공유자
안녕하세요. 좋은질문 감사합니다. 말씀하신 것 처럼 토큰화를 하게 되면 앞뒤 문맥을 보존하기 어렵습니다. 그래서 ngram이라는 것을 함께 쓰는데요.
from sklearn.feature_extraction.text import CountVectorizer 의 ngram_range=(1, 3) 처럼 단어 벡터를 묶어서 토큰화를 합니다.
또, lemmatization 과 stemmer 의 가장 큰 차이점은 텍스트의 원형을 유지하는지 여부도 있을거 같아요.
예를 들면 movies를 lemmatization 하면 movie 로 표현하지만 stemmer는 movi 이렇게 전처리 하기도 합니다.





