[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
수강정보
(19개의 수강평)
2184명의 수강생
스킬태그 #Python, #데이터 과학, #NLP
22,000원
지식공유자 : 박조은
17회 수업 · 총 3시간 30분 수업
기간 : 평생 무제한 시청
수료증 : 발급 강의
수강 난이도 : 중급이상
Jay Moon 프로필

멀티프로세싱 에러 질문입니다. Jay Moon 2달 전
안녕하세요. 실습을 하던 중 아래코드에서 AttributeError가 발생해서 질문 올립니다. 코드 : from multiprocessing import Pool import numpy as np def _apply_df(args):     df, func, kwargs = args     return df.apply(func, **kwargs) def apply_by_multiprocessing(df, func, **kwargs):     # 키워드 항목 중 workers 파라메터를 꺼냄     workers = kwargs.pop('workers')     # 위에서 가져온 workers 수로 프로세스 풀을 정의     pool = Pool(processes=workers)     # 실행할 함수와 데이터프레임을 워커의 수 만큼 나눠 작업     result = pool.map(_apply_df, [(d, func, kwargs)             for d in np.array_split(df, workers)])     pool.close()     # 작업 결과를 합쳐서 반환     return pd.concat(list(result)) 이구요. 에러: AttributeError: Can't get attribute '_apply_df' on <module '__main__' (built-in)> 위와 같은 에러가 발생하는데 5달 전에 같은 문제를 겪으신 분이 계시더라구요. 해당 답변에 colab에서는 잘 실행이 되는데 제 PC에서는 에러가 생기는데 어떻게 해야 해결될까요?

5
Seungman Baek 프로필

sklearn NaN 처리방법 Seungman Baek 2달 전
안녕하세요. part 2의 아래의 코드 실행 시 오류가 발생합니다.  %time forest = forest.fit(trainDataVecs, train["sentiment"] ) --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-67-0162f257485a> in <module>() ----> 1 get_ipython().magic('time forest = forest.fit(trainDataVecs, train["sentiment"] )') 6 frames <decorator-gen-60> in time(self, line, cell, local_ns) <timed exec> in <module>() /usr/local/lib/python3.6/dist-packages/sklearn/utils/validation.py in _assert_all_finite(X, allow_nan, msg_dtype) 58 msg_err.format 59 (type_err, ---> 60 msg_dtype if msg_dtype is not None else X.dtype) 61 ) 62 # for object dtype data, we only check for NaNs (GH-13254) ValueError: Input contains NaN, infinity or a value too large for dtype('float32').해결방법이 있을 지 문의드립니다.

1
Seungman Baek 프로필

sentiment 가 0과 1이 아닌 1~5점 일 경우? Seungman Baek 2달 전
안녕하세요. 좋은 강의 감사드립니다.  코드를 따라가며 실행해보고 있는데 , sentiment 값이 0과 1이 아닌 5점척도 인 경우 어느 부분일 수정해야하는지요? 우선 아래의 코드 실행시 아래와 같은 오류가 발생합니다.  from sklearn.model_selection import cross_val_score %time score = np.mean(cross_val_score(\     forest, train_data_features, \     train['rating'], cv=10, scoring='roc_auc')) score => error : multiclass format is not supported 강의 전체가 0과 1인 경우만을 기준으로 진행되는데 5점척도인 경우 차원이 많아져 분석이 어려운 건지요? 감사합니다.

1
제임스 프로필

코랩에서 PDF 파일로 어떻게 변환하는 방법에 대해서... 제임스 3달 전
안녕하세요. 계속 박 강사님의 강의를 다 듣고 있는데요... 실습하는 파이썬 코드 노트를 오프라인으로 PDF 파일로 보면서 학습하려고 하는데 코랩에서 PDF 파일로 변환하는 방법을 도저히 인터넷에서 찾을 수 가 없어서요.  혹시 알고 계시거나 다른 방법이 있는지요?..

2
류성관 프로필

질문입니다.! 류성관 3달 전
: from sklearn.feature_extraction.text import CountVectorizer from sklearn.pipeline import Pipeline # 튜토리얼과 다르게 파라메터 값을 수정 # 파라메터 값만 수정해도 캐글 스코어 차이가 많이 남 vectorizer = CountVectorizer(analyzer = 'word', tokenizer = None, preprocessor = None, stop_words = None, min_df = 2, # 토큰이 나타날 최소 문서 개수 ngram_range=(1, 3), max_features = 20000 ) vectorizer여기서 토큰이 나타날 최소 문서갯수가 정확하게 무슨의미인가요..?와닿지가 않아서..

1
sbrhim 프로필

bag of centroid 관련 질문 sbrhim 4달 전
Part3 에서 bag of centroid 는 단지 클러스터링 된 word  각각에 대해 몇번 클러스터에 속했는지 one-hot encoding 으로 바꿔주는 건가요??

1
류성관 프로필

안녕하세요. 수업듣고 여쭤보고 싶은게 있습니다. 류성관 4달 전
wardtovec도 벡터화하는건데 이거를 머신러닝의 입력으로도 많이 활용되나요 ..?? CounterVectorizer는 딥러닝에 적합하지 않는데 역으로 wordtovec은 어떤지 궁금합니다 ..ㅎ..강의를 끝까지 안듣고 질문한걸수도있는데 급 궁금해서요. 그리고 단어연관도 서로 묶어주고하며은 당연히 wordtovec이 압도적으로 좋고 많이써야되는거 아니에여?

1
Yoon Jong Mun 프로필

gensim 에러가 계속되네요. Yoon Jong Mun 5달 전
ImportError: No module named gensim.models from gensim.models import word2vec 통해서 word2vec을 실행하는데, 위의 오류가 계속돼 GitHub의 해결 방식을 계속 실행해 해보지만 계속 오류가 나네요. 혹시 관련 문제에 대해서 해결방안이 있을까요? 

1
김기만 프로필

RandomForest와 성능 Score 김기만 5달 전
1. RandomForest와 성능 Score RandomForest와 그 아래 성능 Score에 대한 개념 설명 좀 부탁 드립니다. 랜덤포레스트는 여러 개의 디시젼트리를 돌려서 데이터를 학습시키고 각각의 디시젼 트리는 총 데이터 중에 각각 다른 부분을 가지고 학습을 하여 성능 점수가 산출되며 cross_val_score 함수로 그 평균을 구하여 최종 score를 산출하는 것으로 이해하고 있습니다. 이게 맞나요? 그리고 최종 score가 모델의 최종 성능을 의미한는 건가요?

1
김기만 프로필

vectorizer.get_feature_names() 문의 김기만 5달 전
안녕하세요. 아래와 같이 두 가지 질문 드립니다. 1. 아래와 같이 vocab 변수를 만들 때 train_data_features의 데이터를 지정해주지 않는데 어떻게 vocab 변수는 train_data_features의 feature 데이터를 가지고 있는건가요? vocab = vectorizer.get_feature_names() print(len(vocab)) vocab[:10] 아래 파이프라인 과정에서 처리되는건가요? pipeline = Pipeline([     ('vect', vectorizer),]) 2. 아래 코드 해석 좀 부탁드릴께요.. # 벡터화 된 피처를 확인해 봄 import numpy as np dist = np.sum(train_data_features, axis=0) for tag, count in zip(vocab, dist): print(count, tag) pd.DataFrame(dist, columns=vocab)

6
김기만 프로필

CountVectorizer 파라미터 질문 김기만 5달 전
안녕하세요. 아래 질문과 비슷한 내용인데 답변이 없어서 다시 질문 드립니다. 1. 파라미텅 중 analyzer, tokenizer, preprocessor에 대해서 설명 좀 부탁 드립니다. 구글링해도 명확하게 이해가 안되네요ㅜㅜ 2. 파라미터 중 stop_words가 있더라구요. 앞에도 별도로 불용어 처리 안해주고 여기서 처리해도 되는건가요? 3. max_features 지정할 때 참조할만한 기준이 있나요? min-df와는 연관성이 없나요? 강의 중에 간단하게나마 설명해 주시면 더 감사하겠습니다 ^^;; 저같은 초보들은 구글링하는 데 시간이 꽤 걸러서요ㅜㅜ

1
김기만 프로필

import 문의 김기만 6달 전
import할 때 왜 pandas, re는  import pandas 형태로  가져오고 nltk, BeautifulSoup는 별도로 설치하거나 from bs4 import BeautifulSoup 이런식으로 사용하는 건가요? 여기서 bs4는 뭐라고 부르나요? pandas는 모듈? BeautifulSoup는 패키지인가요?

1
김기만 프로필

코드 해석 문의 김기만 6달 전
안녕하세요. 강의 너무 잘 듣고 있습니다. 아래 코드가 대충 어떤 의미인지는 이해가 가는데 정확히 알고 싶어서요. 아래 코드 해석 좀 해주실 수 있을까요? # 5. Stopwords 불용어 제거 meaningful_words = [w for w in words if not w in stops] # 6. 어간추출 stemming_words = [stemmer.stem(w) for w in meaningful_words]

1
김기만 프로필

기초 질문 드립니다. 김기만 6달 전
안녕하세요. 데이터 분석을 공부한 지 얼마 안된 초보 수강생입니다. 기초 지식이 많이 없어 기본적인 용어 관련해서 질문 드립니다. 1. Google's word2vec은 구글에서 제공하는 프로그램같은 건가요? 아님 분석 기법? 기본 개념에 관해 설명 부탁 드립니다. 2. 임베딩이 뭔가요? 그리고 강의 자료에 나와 있는 모형 테스트는 어떤 식으로 작용하는건가요? 입력값에 따라 결과값이 달라지던데 저기서 뭘 이해해야 하는 지 모르겠네요. 3. BOW는 프로그램 같은 건가요? 아님 그냥 분석 기법?개념?같은 건가요?

1
ghddbsvy1130 프로필

커널 공개 ghddbsvy1130 7달 전
안녕하세요 강의 정말 잘듣고 공부중입니다!  캐글 환경에서 튜토리얼 진행중인데 커널을 Public으로 해놔도 되는지 여쭙고 싶습니다.  유료강의이기 때문에 강의 그대로의 커널을 Public으로 해놓는게 문제가 될 수도 있을것 같아 질문 남깁니다!

2
지식공유자 되기
많은 사람들에게 배움의 기회를 주고,
경제적 보상을 받아보세요.
지식공유참여
기업 교육을 위한 인프런
“인프런 비즈니스” 를 통해 모든 팀원이 인프런의 강의들을
자유롭게 학습하는 환경을 제공하세요.
인프런 비즈니스