강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

songs님의 프로필 이미지
songs

작성한 질문수

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

[2/4] NLP 텍스트 데이터 전처리

튜토리얼1의 2/4 강의 중 lemmatize 관련 질문드립니다

해결된 질문

작성

·

229

1

lemmatization이란게 동음이의어가 있을 때, 문장의 앞뒤 문맥에서 단어의 의미를 찾는 것이라는 설명을 봤는데요. 여기 예제처럼 문장을 토큰화 해놓으면 앞뒤 문맥을 파악할 수 없는것 아닌지 궁금합니다! 그리고 여러가지 stemmer 들의 장단점이 있을텐데 그러한 설명도 해주셨으면 좋겠습니다! snowballstemmer를 이 상황에서 쓰신 이유같은 것이요!  

답변 1

1

박조은님의 프로필 이미지
박조은
지식공유자

안녕하세요. 좋은질문 감사합니다. 말씀하신 것 처럼 토큰화를 하게 되면 앞뒤 문맥을 보존하기 어렵습니다. 그래서 ngram이라는 것을 함께 쓰는데요. 

from sklearn.feature_extraction.text import CountVectorizer 의  ngram_range=(1, 3) 처럼 단어 벡터를 묶어서 토큰화를 합니다.

또, lemmatization 과 stemmer 의 가장 큰 차이점은 텍스트의 원형을 유지하는지 여부도 있을거 같아요.

예를 들면 movies를 lemmatization  하면 movie 로 표현하지만 stemmer는 movi 이렇게 전처리 하기도 합니다.

songs님의 프로필 이미지
songs

작성한 질문수

질문하기