inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

[2/4] NLP 텍스트 데이터 전처리

튜토리얼1의 2/4 강의 중 lemmatize 관련 질문드립니다

해결된 질문

231

songs

작성한 질문수 1

1

lemmatization이란게 동음이의어가 있을 때, 문장의 앞뒤 문맥에서 단어의 의미를 찾는 것이라는 설명을 봤는데요. 여기 예제처럼 문장을 토큰화 해놓으면 앞뒤 문맥을 파악할 수 없는것 아닌지 궁금합니다! 그리고 여러가지 stemmer 들의 장단점이 있을텐데 그러한 설명도 해주셨으면 좋겠습니다! snowballstemmer를 이 상황에서 쓰신 이유같은 것이요!  

NLP python

답변 1

1

박조은

안녕하세요. 좋은질문 감사합니다. 말씀하신 것 처럼 토큰화를 하게 되면 앞뒤 문맥을 보존하기 어렵습니다. 그래서 ngram이라는 것을 함께 쓰는데요. 

from sklearn.feature_extraction.text import CountVectorizer 의  ngram_range=(1, 3) 처럼 단어 벡터를 묶어서 토큰화를 합니다.

또, lemmatization 과 stemmer 의 가장 큰 차이점은 텍스트의 원형을 유지하는지 여부도 있을거 같아요.

예를 들면 movies를 lemmatization  하면 movie 로 표현하지만 stemmer는 movi 이렇게 전처리 하기도 합니다.

word2vec 질문

0

306

1

질문 드립니다

0

326

1

%time clean_train_reviews = apply_by_multiprocessing(\ train['review'], review_to_words, workers=4)

0

329

2

한국어 텍스트 분석과 영어 텍스트 분석의 차이

0

551

1

코랩 실습 링크 파일 다시 올려주시면 안되나요?

0

465

1

강의 자료는 어디서 받을 수 있나요?

0

350

1

data폴더안에 tsv파일이 없다고 나오는데 어떻게 해야하나요?

1

719

4

젠심

1

386

1

질문드립니다

1

232

1

질문드립ㄴ디ㅏ

1

409

3

질문드립니다

1

335

2

word2vec 실행 오류

1

382

1

gensim 4.0 버전 문제

1

2173

1

멀티 프로세싱 오류 질문입니다

1

1099

1

1-2 NLP 텍스트 데이터 처리 오류 관련 질문드립니다.

1

352

1

1강 질문드립니다.

1

235

1

질문드립니다.

1

428

2

질문드립니다.

1

210

1

id 말고 어떤 영화인지는 어떻게 알수있을까요?

1

281

1

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

1

481

1

has no attribute 'syn0'

2

324

1

영상 "섹션1. [2/4] NLP 텍스트 데이터 전처리" 부분에 대해 질문 있습니다!

1

313

5

wget 오류

1

781

1

html5lib 과 lxml 에서 모두 에러가 발생하고 있습니다.

1

530

1