[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 자연어 처리

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 자연어 처리

(7개의 수강평)

1625명의 수강생

무료

박조은
평생
초급
16개 수업, 총 3시간 12분
Hyunkyung Bae 프로필

nltk is not defined 에러메시지 Hyunkyung Bae 10일 전

KaggleWord2VecUtility 모듈을 호출해서 매서드 실행시키면 NameError: name 'nltk' is not defined 라는 에러 메시지가 뜹니다. nltk.download('punkt') 나 import nltk 를 해도 해결이 되지 않는데 조언 부탁드릴게요!

0
이해인 프로필

CountVectorizer 파라미터 값 질문 이해인 23일 전

안녕하세요.

countvectorizer의 파라미터 값에 대해 궁금해 질문 남깁니다.

찾아보니, tokenizer, analyzer, token_pattern 의 인수가 모두 토큰 생성기 선택에 관한 인수라고 나와있던데 각각의 인수가 뜻하는 게 뭔지 정확히 알고 싶습니다. 

찾아본 바로는

tokenizer: 함수 또는 None(default), 토큰 생성 함수
analyzer: 문자열 {'word', 'char', 'char_wb'} 또는 함수
token_pattern: string, 토큰 정의용 정규표현식

이라고 설명되어있던데 정확한 설명을 구할 수 없어 질문 드립니다. 답변 부탁드립니다.

0
임승경 프로필

강사님 질문이 있습니다! 임승경 4달 전

안녕하세요. 강사님이 올려주신 강의를 따라하며 텍스트 감성분석을 해보고 있는 학생입니다..

개인적으로 다른 사이트의 리뷰를 따로 정리해둔 데이터가 있는데 그 데이터를 test데이터 대신에 넣어서 실제로 활용해도 괜찮을까요? 제가 하고 싶은건 리뷰의 긍정 부정을 예측하는 것인데, 이것을 하기 위해 이 캐글의 튜토리얼을 적용해서 사용해도 결과가 나오는지가 궁금합니다.

그리고 튜토리얼1을 따라해보고 test데이터를 제가 가진 데이터로 바꿔서 해보았더니 결과가 생각보다 정확하게 나오지 않았는데, 정확도를 높이려면 어떤 튜토리얼이 더 좋은지 알고 싶습니다. 머신러닝을 처음 접하는 것이다 보니 질문이 구체적이지 못해서 죄송합니다.. 그리고 강의 감사합니다!

0
억대 개발자 프로필

stemming 후 의 lemmatization 억대 개발자 8달 전

강의에서 Lemmatization은 명사/동사 인지에 따라 적합한 의미를 갖도록 한다고 되어있는데, stemming 한 후에 lemmatization해서 나온 결과와 stemming 하기 전의 lemmatization의 결과가 다릅니다! 개인적인 생각은 하기전에 해야되지 않나 생각이 들어서요

예를들어 예시에 나온 meeting(회의의 의미를 가진) 은 stemming을 하면 meet가 되가 되어 lemmatization에서 동사의 의미를 갖게 되지 않나 싶습니다. 이 부분이 좀 헷갈리네요

0
박정규 프로필

'list' object has no attribute 'apply' 문의 박정규 1달 전

train['num_words'] = clean_train_reviews.apply(lambda x: len(str(x).split()))

이부분이 처리가 안되네요 ;;

파이참으로 하는데요 , AttributeError: 'list' object has no attribute 'apply' 라고 에러가 뜹니다....

1
박정규 프로필

stopwords 문의드립니다. 박정규 1달 전

Window 사용자인데요. stopwords 설치를 못하겠네요. 강의하신거 처럼.

아래 에러가 발생하구요. nltk 사이트에서 파일 다운 받았습니다.

C 밑에 nltk_data 밑에도 넣어보고요.

해당 프로젝트 venv폴더 밑에 nltk_data 만들어서 넣어도 안되네요..?

unzip한 stopwords 폴더 형태로 그대로 넣으면 되는거 아닌가요?

Resource stopwords not found.

Please use the NLTK Downloader to obtain the resource:

import nltk

nltk.download('stopwords')

Searched in:

  • 'D:\/nltk_data'
  • 'C:\nltk_data'
  • 'D:\nltk_data'
  • 'E:\nltk_data'
  • 'D:\Program\Pycharm\movie\venv\nltk_data'
  • 'D:\Program\Pycharm\movie\venv\share\nltk_data'
  • 'D:\Program\Pycharm\movie\venv\lib\nltk_data'
  • 'C:\Users\81345\AppData\Roaming\nltk_data'

1
seo3 프로필

TSNE 시각화 질문 seo3 9달 전

강의 잘 보고 있습니다.

tsne=TSNE(n_components=2)

100개의 단어에 대해서만 시각화

X_tsne= tsne.fit_transform(X[:100,:])

이부분에서 300개의 feature를 2개의 component로 차원축소해서 나타낸다는 뜻인가요? 아니면 앞의 2개의 feature만을 사용한다는 뜻인가요

0
Lim Sung Hoo 프로필

워드클라우드 에러 질문 드립니다. Lim Sung Hoo 9달 전

안녕하세요 강의 정말 잘 듣고 있습니다. 실습 도중 다름이 아니라 wordcloud를 임포트 하였는데, 에러 창에 No module named 'wordcloud'라고 나옵니다.

아나콘다에서 쥬피터 노트북을 사용하고 있어서, Anaconda Navigator - Environments 에서 wordcloud를 검색하였는데 이것도 뜨지 않아 어떻게 해결할 수 있나 질문드립니다 :)) 좋은 강의 해주셔서 정말 감사합니다.

0
Travis Jun 프로필

Predict 결과값 확도 차이관련 문의 Travis Jun 2018.05.03

예제와 동일하게 진행했으나 Predict 확도가 차이가 커서 CountVectorizer만 일부 조정해서

확도가 올라갔으나 여전히 강사님 결과와 차이가 크네요.

혹시 확도를 더 올리려면 어디를 조정하면 좋을지 조언 부탁드립니닷!

실행한 소스는 아래와 같습니다.

1
임예은 프로필

깃허브 주소 임예은 2018.04.17

안녕하세요! 혹시 박조은 강사님 깃허브 주소를 알 수 있을까요??

1