[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

[2/4] NLP 텍스트 데이터 전처리

튜토리얼1의 2/4 강의 중 lemmatize 관련 질문드립니다

해결된 질문2019-09-19T13:32:18.134Z

233

songs

작성한 질문수 1

lemmatization이란게 동음이의어가 있을 때, 문장의 앞뒤 문맥에서 단어의 의미를 찾는 것이라는 설명을 봤는데요. 여기 예제처럼 문장을 토큰화 해놓으면 앞뒤 문맥을 파악할 수 없는것 아닌지 궁금합니다! 그리고 여러가지 stemmer 들의 장단점이 있을텐데 그러한 설명도 해주셨으면 좋겠습니다! snowballstemmer를 이 상황에서 쓰신 이유같은 것이요!

NLP python

답변 1

박조은

2019-09-22T01:24:58.516Z

안녕하세요. 좋은질문 감사합니다. 말씀하신 것 처럼 토큰화를 하게 되면 앞뒤 문맥을 보존하기 어렵습니다. 그래서 ngram이라는 것을 함께 쓰는데요.

from sklearn.feature_extraction.text import CountVectorizer 의 ngram_range=(1, 3) 처럼 단어 벡터를 묶어서 토큰화를 합니다.

또, lemmatization 과 stemmer 의 가장 큰 차이점은 텍스트의 원형을 유지하는지 여부도 있을거 같아요.

예를 들면 movies를 lemmatization 하면 movie 로 표현하지만 stemmer는 movi 이렇게 전처리 하기도 합니다.

word2vec 질문

2023-08-12T12:09:45.129Z

312

질문 드립니다

2023-07-23T15:36:03.369Z

335

%time clean_train_reviews = apply_by_multiprocessing(\ train['review'], review_to_words, workers=4)

2023-07-23T12:18:07.021Z

337

한국어 텍스트 분석과 영어 텍스트 분석의 차이

2023-05-30T00:43:09.936Z

565

코랩 실습 링크 파일 다시 올려주시면 안되나요?

2023-05-29T15:59:20.504Z

478

강의 자료는 어디서 받을 수 있나요?

2023-04-09T12:52:54.466Z

362

data폴더안에 tsv파일이 없다고 나오는데 어떻게 해야하나요?

2022-07-27T07:15:48.300Z

734

젠심

2022-03-28T00:47:56.224Z

393

질문드립니다

2022-03-25T08:31:21.557Z

242

질문드립ㄴ디ㅏ

2022-03-25T04:38:17.898Z

415

질문드립니다

2022-03-25T03:48:06.564Z

341

word2vec 실행 오류

2022-03-22T06:04:20.113Z

394

gensim 4.0 버전 문제

2022-03-18T08:52:33.578Z

2180

멀티 프로세싱 오류 질문입니다

2022-01-26T13:13:00.384Z

1109

1-2 NLP 텍스트 데이터 처리 오류 관련 질문드립니다.

2022-01-15T18:49:07.919Z

360

1강 질문드립니다.

2022-01-14T07:53:25.331Z

242

질문드립니다.

2021-12-28T09:43:40.950Z

436

질문드립니다.

2021-11-21T15:26:56.922Z

221

id 말고 어떤 영화인지는 어떻게 알수있을까요?

2021-11-06T22:33:30.646Z

283

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

2021-05-17T07:05:50.336Z

486

has no attribute 'syn0'

2021-04-15T20:37:05.750Z

329

영상 "섹션1. [2/4] NLP 텍스트 데이터 전처리" 부분에 대해 질문 있습니다!

2021-04-11T08:01:45.205Z

319

wget 오류

2021-03-07T14:53:53.291Z

790

html5lib 과 lxml 에서 모두 에러가 발생하고 있습니다.

2021-01-10T11:55:13.921Z

536