[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
수강정보
(21개의 수강평)
2250명의 수강생
스킬태그 #Python, #데이터 과학, #NLP
22,000원
지식공유자 : 박조은
17회 수업 · 총 3시간 30분 수업
기간 : 평생 무제한 시청
수료증 : 발급 강의
수강 난이도 : 중급이상
전재웅 프로필

pipeline transform과 fit_transform의 차이 전재웅 1달 전
안녕하세요 강사님, NLP 또한 잘 보고 있는데 질문이 하나 있습니다. 아래에는 데이터를 벡터화 하기 위해 파이프라인의 fit_transform으로 변환했는데,  #벡터화 파라미터 설정하여 벡터화 템플릿 생성 vectorizer = CountVectorizer(analyzer ="word",                              tokenizer=None,                              preprocessor = None,                              stop_words = None,                              min_df = 2,                              ngram_range=(1,3),                              max_features = 20000                              ) pipeline = Pipeline([     ('vect', vectorizer), ]) %time train_data_features = pipeline.fit_transform(train["review_clean"]) train_data_features 뒤에서 실제 테스트 데이터를 벡터화할 때는 transform으로 하셨습니다.  %time test_data_features = pipeline.transform(clean_test_reviews) test_data_features = test_data_features.toarray() 혹시 fit_transform()과 transform()의 차이가 있는지 문의드립니다.  NLP에 호기심이 많이 가는데, 복잡하고 어렵네요..

3
형석 프로필

KaggleWord2VecUtility 패키지 만들기 형석 1달 전
안녕하세요. 좋은 강의 항상 감사드립니다. 저는 주피터 노트북이아니라 캐글 자체 노트북에서 코드를 따라하면서 진행을 하는데요, 캐글 노트북에서 KaggleWord2VecUtility 패키지는 어떻게 만드나요? https://github.com/corazzon/KaggleStruggle/blob/master/word2vec-nlp-tutorial/KaggleWord2VecUtility.py 여기 나와있는데로 기존 노트북에 복사 붙여넣기 한다음 패키지를 불러왔는데 오류가 뜨더라구요!

1
Jay Moon 프로필

멀티프로세싱 에러 질문입니다. Jay Moon 4달 전
안녕하세요. 실습을 하던 중 아래코드에서 AttributeError가 발생해서 질문 올립니다. 코드 : from multiprocessing import Pool import numpy as np def _apply_df(args):     df, func, kwargs = args     return df.apply(func, **kwargs) def apply_by_multiprocessing(df, func, **kwargs):     # 키워드 항목 중 workers 파라메터를 꺼냄     workers = kwargs.pop('workers')     # 위에서 가져온 workers 수로 프로세스 풀을 정의     pool = Pool(processes=workers)     # 실행할 함수와 데이터프레임을 워커의 수 만큼 나눠 작업     result = pool.map(_apply_df, [(d, func, kwargs)             for d in np.array_split(df, workers)])     pool.close()     # 작업 결과를 합쳐서 반환     return pd.concat(list(result)) 이구요. 에러: AttributeError: Can't get attribute '_apply_df' on <module '__main__' (built-in)> 위와 같은 에러가 발생하는데 5달 전에 같은 문제를 겪으신 분이 계시더라구요. 해당 답변에 colab에서는 잘 실행이 되는데 제 PC에서는 에러가 생기는데 어떻게 해야 해결될까요?

5
Seungman Baek 프로필

sklearn NaN 처리방법 Seungman Baek 5달 전
안녕하세요. part 2의 아래의 코드 실행 시 오류가 발생합니다.  %time forest = forest.fit(trainDataVecs, train["sentiment"] ) --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-67-0162f257485a> in <module>() ----> 1 get_ipython().magic('time forest = forest.fit(trainDataVecs, train["sentiment"] )') 6 frames <decorator-gen-60> in time(self, line, cell, local_ns) <timed exec> in <module>() /usr/local/lib/python3.6/dist-packages/sklearn/utils/validation.py in _assert_all_finite(X, allow_nan, msg_dtype) 58 msg_err.format 59 (type_err, ---> 60 msg_dtype if msg_dtype is not None else X.dtype) 61 ) 62 # for object dtype data, we only check for NaNs (GH-13254) ValueError: Input contains NaN, infinity or a value too large for dtype('float32').해결방법이 있을 지 문의드립니다.

1
Seungman Baek 프로필

sentiment 가 0과 1이 아닌 1~5점 일 경우? Seungman Baek 5달 전
안녕하세요. 좋은 강의 감사드립니다.  코드를 따라가며 실행해보고 있는데 , sentiment 값이 0과 1이 아닌 5점척도 인 경우 어느 부분일 수정해야하는지요? 우선 아래의 코드 실행시 아래와 같은 오류가 발생합니다.  from sklearn.model_selection import cross_val_score %time score = np.mean(cross_val_score(\     forest, train_data_features, \     train['rating'], cv=10, scoring='roc_auc')) score => error : multiclass format is not supported 강의 전체가 0과 1인 경우만을 기준으로 진행되는데 5점척도인 경우 차원이 많아져 분석이 어려운 건지요? 감사합니다.

1
제임스 프로필

코랩에서 PDF 파일로 어떻게 변환하는 방법에 대해서... 제임스 5달 전
안녕하세요. 계속 박 강사님의 강의를 다 듣고 있는데요... 실습하는 파이썬 코드 노트를 오프라인으로 PDF 파일로 보면서 학습하려고 하는데 코랩에서 PDF 파일로 변환하는 방법을 도저히 인터넷에서 찾을 수 가 없어서요.  혹시 알고 계시거나 다른 방법이 있는지요?..

2
류성관 프로필

질문입니다.! 류성관 6달 전
: from sklearn.feature_extraction.text import CountVectorizer from sklearn.pipeline import Pipeline # 튜토리얼과 다르게 파라메터 값을 수정 # 파라메터 값만 수정해도 캐글 스코어 차이가 많이 남 vectorizer = CountVectorizer(analyzer = 'word', tokenizer = None, preprocessor = None, stop_words = None, min_df = 2, # 토큰이 나타날 최소 문서 개수 ngram_range=(1, 3), max_features = 20000 ) vectorizer여기서 토큰이 나타날 최소 문서갯수가 정확하게 무슨의미인가요..?와닿지가 않아서..

1
sbrhim 프로필

bag of centroid 관련 질문 sbrhim 6달 전
Part3 에서 bag of centroid 는 단지 클러스터링 된 word  각각에 대해 몇번 클러스터에 속했는지 one-hot encoding 으로 바꿔주는 건가요??

1
류성관 프로필

안녕하세요. 수업듣고 여쭤보고 싶은게 있습니다. 류성관 6달 전
wardtovec도 벡터화하는건데 이거를 머신러닝의 입력으로도 많이 활용되나요 ..?? CounterVectorizer는 딥러닝에 적합하지 않는데 역으로 wordtovec은 어떤지 궁금합니다 ..ㅎ..강의를 끝까지 안듣고 질문한걸수도있는데 급 궁금해서요. 그리고 단어연관도 서로 묶어주고하며은 당연히 wordtovec이 압도적으로 좋고 많이써야되는거 아니에여?

1
Yoon Jong Mun 프로필

gensim 에러가 계속되네요. Yoon Jong Mun 7달 전
ImportError: No module named gensim.models from gensim.models import word2vec 통해서 word2vec을 실행하는데, 위의 오류가 계속돼 GitHub의 해결 방식을 계속 실행해 해보지만 계속 오류가 나네요. 혹시 관련 문제에 대해서 해결방안이 있을까요? 

1
김기만 프로필

RandomForest와 성능 Score 김기만 8달 전
1. RandomForest와 성능 Score RandomForest와 그 아래 성능 Score에 대한 개념 설명 좀 부탁 드립니다. 랜덤포레스트는 여러 개의 디시젼트리를 돌려서 데이터를 학습시키고 각각의 디시젼 트리는 총 데이터 중에 각각 다른 부분을 가지고 학습을 하여 성능 점수가 산출되며 cross_val_score 함수로 그 평균을 구하여 최종 score를 산출하는 것으로 이해하고 있습니다. 이게 맞나요? 그리고 최종 score가 모델의 최종 성능을 의미한는 건가요?

1
김기만 프로필

vectorizer.get_feature_names() 문의 김기만 8달 전
안녕하세요. 아래와 같이 두 가지 질문 드립니다. 1. 아래와 같이 vocab 변수를 만들 때 train_data_features의 데이터를 지정해주지 않는데 어떻게 vocab 변수는 train_data_features의 feature 데이터를 가지고 있는건가요? vocab = vectorizer.get_feature_names() print(len(vocab)) vocab[:10] 아래 파이프라인 과정에서 처리되는건가요? pipeline = Pipeline([     ('vect', vectorizer),]) 2. 아래 코드 해석 좀 부탁드릴께요.. # 벡터화 된 피처를 확인해 봄 import numpy as np dist = np.sum(train_data_features, axis=0) for tag, count in zip(vocab, dist): print(count, tag) pd.DataFrame(dist, columns=vocab)

6
김기만 프로필

CountVectorizer 파라미터 질문 김기만 8달 전
안녕하세요. 아래 질문과 비슷한 내용인데 답변이 없어서 다시 질문 드립니다. 1. 파라미텅 중 analyzer, tokenizer, preprocessor에 대해서 설명 좀 부탁 드립니다. 구글링해도 명확하게 이해가 안되네요ㅜㅜ 2. 파라미터 중 stop_words가 있더라구요. 앞에도 별도로 불용어 처리 안해주고 여기서 처리해도 되는건가요? 3. max_features 지정할 때 참조할만한 기준이 있나요? min-df와는 연관성이 없나요? 강의 중에 간단하게나마 설명해 주시면 더 감사하겠습니다 ^^;; 저같은 초보들은 구글링하는 데 시간이 꽤 걸러서요ㅜㅜ

1
김기만 프로필

import 문의 김기만 8달 전
import할 때 왜 pandas, re는  import pandas 형태로  가져오고 nltk, BeautifulSoup는 별도로 설치하거나 from bs4 import BeautifulSoup 이런식으로 사용하는 건가요? 여기서 bs4는 뭐라고 부르나요? pandas는 모듈? BeautifulSoup는 패키지인가요?

1
김기만 프로필

코드 해석 문의 김기만 8달 전
안녕하세요. 강의 너무 잘 듣고 있습니다. 아래 코드가 대충 어떤 의미인지는 이해가 가는데 정확히 알고 싶어서요. 아래 코드 해석 좀 해주실 수 있을까요? # 5. Stopwords 불용어 제거 meaningful_words = [w for w in words if not w in stops] # 6. 어간추출 stemming_words = [stemmer.stem(w) for w in meaningful_words]

1
지식공유자 되기
많은 사람들에게 배움의 기회를 주고,
경제적 보상을 받아보세요.
지식공유참여
기업 교육을 위한 인프런
“인프런 비즈니스” 를 통해 모든 팀원이 인프런의 강의들을
자유롭게 학습하는 환경을 제공하세요.
인프런 비즈니스