Thumbnail
여성의 날 특별 할인 중(D-3)
BEST 데이터 사이언스 데이터 분석
[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
(4.6)
25개의 수강평 ∙ 2342명의 수강생

20%

17,600원

22,000원
지식공유자 : 박조은
총 17개 수업˙총 3시간 30분
평생 무제한 수강
수료증 발급 강의
입문 초급 중급이상 대상
이 강의는 멘토링 신청이 가능합니다.
멘토링은 수강 신청과 별개로 운영되며, 수강생이 아니어도 신청할 수 있습니다.
내 목록 추가 442 공유
Jinsan An 프로필

wget 오류 Jinsan An 1일 전
안녕하세요? 수업 정말 잘 듣고 있습니다.  다름이 아니라,  !wget https://github.com/corazzon/KaggleStruggle/raw/master/word2vec-nlp-tutorial/KaggleWord2VecUtility.py 이 코드를 실행하면,  'wget'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는 배치 파일이 아닙니다. 라는 오류가 뜹니다.  코랩에서는 잘 실행되는 것을 보니 제 컴퓨터의 문제인 것 같습니다.  그래서 여기저기 찾아서 환경 변수 추가도 해보았는데 해결이 안 되네요.  그래서 질문 남깁니다!  어떻게 해결하면 좋을까요?

1
khykhan 프로필

html5lib 과 lxml 에서 모두 에러가 발생하고 있습니다. khykhan 1달 전
안녕하세요. 강의를 들으면서 따라하고 있습니다. Colab에서는 잘 수행되었는데, WIndows PC에서 수행하려고 하니 잘 안되고 있습니다. !pip install html5lib !pip install lxml ######### from bs4 import BeautifulSoup example1 = BeautifulSoup(train['review'][0], "lxml") example1 = BeautifulSoup(train['review'][0], "html5lib") ######### 오류 메시지는 --------------------------------------------------------------------------- FeatureNotFound Traceback (most recent call last) <ipython-input-54-8cdcac2fe5bc> in <module> 3 # import lxml.html as l 4 ----> 5 example1 = BeautifulSoup(train['review'][0], "html5lib") c:\program files\python38\lib\site-packages\bs4\__init__.py in __init__(self, markup, features, builder, parse_only, from_encoding, exclude_encodings, element_classes, **kwargs) 240 builder_class = builder_registry.lookup(*features) 241 if builder_class is None: --> 242 raise FeatureNotFound( 243 "Couldn't find a tree builder with the features you " 244 "requested: %s. Do you need to install a parser library?" FeatureNotFound: Couldn't find a tree builder with the features you requested: html5lib. Do you need to install a parser library?----------------------------------어떻게 해야 할까요?PC에서는 더 이상 진행이 되질 않습니다. ㅠ.ㅠ

1
엠엠 프로필

np.sum(train_data_features, axis = 0)에 대해 질문 드립니다. 엠엠 2달 전
train_data_features는 row가 문장번호, column은 단어의 번호, value는 문장번호에서 단어의 빈도수인 2D 형태로 이해를 하고 있습니다. 그런데, np.sum(train_data_features, axis = 0)을 하게 된다면 각 문장에서 나오는 모든 단어의 빈도수를 더하게 되는것이 아닌가요?

1
엠엠 프로필

fit_transform에 대해 질문 드립니다. 엠엠 2달 전
1. pipeline.fit_transform의 기능에 대해 이해가 잘 가지 않습니다. 원래 clean_train_reviews는 아래 그림과 같이 단어들이 들어가 있었는데 pipeline.fit_transform을 실행하니, 아래와 같이 바뀌었네요. 아래의 튜플의 숫자들은 어떤 의미를 갖고 있는건가요?? 2. 머신러닝에 관한 개념이나 지식이 없어서 그런지... 이전의 데이터 분석 강의와는 난이도가 다르게 느껴지네요... 혹시 참고할만한 자료가 있을까요?

2
전재웅 프로필

pipeline transform과 fit_transform의 차이 전재웅 4달 전
안녕하세요 강사님, NLP 또한 잘 보고 있는데 질문이 하나 있습니다. 아래에는 데이터를 벡터화 하기 위해 파이프라인의 fit_transform으로 변환했는데,  #벡터화 파라미터 설정하여 벡터화 템플릿 생성 vectorizer = CountVectorizer(analyzer ="word",                              tokenizer=None,                              preprocessor = None,                              stop_words = None,                              min_df = 2,                              ngram_range=(1,3),                              max_features = 20000                              ) pipeline = Pipeline([     ('vect', vectorizer), ]) %time train_data_features = pipeline.fit_transform(train["review_clean"]) train_data_features 뒤에서 실제 테스트 데이터를 벡터화할 때는 transform으로 하셨습니다.  %time test_data_features = pipeline.transform(clean_test_reviews) test_data_features = test_data_features.toarray() 혹시 fit_transform()과 transform()의 차이가 있는지 문의드립니다.  NLP에 호기심이 많이 가는데, 복잡하고 어렵네요..

3
형석 프로필

KaggleWord2VecUtility 패키지 만들기 형석 4달 전
안녕하세요. 좋은 강의 항상 감사드립니다. 저는 주피터 노트북이아니라 캐글 자체 노트북에서 코드를 따라하면서 진행을 하는데요, 캐글 노트북에서 KaggleWord2VecUtility 패키지는 어떻게 만드나요? https://github.com/corazzon/KaggleStruggle/blob/master/word2vec-nlp-tutorial/KaggleWord2VecUtility.py 여기 나와있는데로 기존 노트북에 복사 붙여넣기 한다음 패키지를 불러왔는데 오류가 뜨더라구요!

1
Jay Moon 프로필

멀티프로세싱 에러 질문입니다. Jay Moon 8달 전
안녕하세요. 실습을 하던 중 아래코드에서 AttributeError가 발생해서 질문 올립니다. 코드 : from multiprocessing import Pool import numpy as np def _apply_df(args):     df, func, kwargs = args     return df.apply(func, **kwargs) def apply_by_multiprocessing(df, func, **kwargs):     # 키워드 항목 중 workers 파라메터를 꺼냄     workers = kwargs.pop('workers')     # 위에서 가져온 workers 수로 프로세스 풀을 정의     pool = Pool(processes=workers)     # 실행할 함수와 데이터프레임을 워커의 수 만큼 나눠 작업     result = pool.map(_apply_df, [(d, func, kwargs)             for d in np.array_split(df, workers)])     pool.close()     # 작업 결과를 합쳐서 반환     return pd.concat(list(result)) 이구요. 에러: AttributeError: Can't get attribute '_apply_df' on <module '__main__' (built-in)> 위와 같은 에러가 발생하는데 5달 전에 같은 문제를 겪으신 분이 계시더라구요. 해당 답변에 colab에서는 잘 실행이 되는데 제 PC에서는 에러가 생기는데 어떻게 해야 해결될까요?

5
Seungman Baek 프로필

sklearn NaN 처리방법 Seungman Baek 8달 전
안녕하세요. part 2의 아래의 코드 실행 시 오류가 발생합니다.  %time forest = forest.fit(trainDataVecs, train["sentiment"] ) --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-67-0162f257485a> in <module>() ----> 1 get_ipython().magic('time forest = forest.fit(trainDataVecs, train["sentiment"] )') 6 frames <decorator-gen-60> in time(self, line, cell, local_ns) <timed exec> in <module>() /usr/local/lib/python3.6/dist-packages/sklearn/utils/validation.py in _assert_all_finite(X, allow_nan, msg_dtype) 58 msg_err.format 59 (type_err, ---> 60 msg_dtype if msg_dtype is not None else X.dtype) 61 ) 62 # for object dtype data, we only check for NaNs (GH-13254) ValueError: Input contains NaN, infinity or a value too large for dtype('float32').해결방법이 있을 지 문의드립니다.

1
Seungman Baek 프로필

sentiment 가 0과 1이 아닌 1~5점 일 경우? Seungman Baek 8달 전
안녕하세요. 좋은 강의 감사드립니다.  코드를 따라가며 실행해보고 있는데 , sentiment 값이 0과 1이 아닌 5점척도 인 경우 어느 부분일 수정해야하는지요? 우선 아래의 코드 실행시 아래와 같은 오류가 발생합니다.  from sklearn.model_selection import cross_val_score %time score = np.mean(cross_val_score(\     forest, train_data_features, \     train['rating'], cv=10, scoring='roc_auc')) score => error : multiclass format is not supported 강의 전체가 0과 1인 경우만을 기준으로 진행되는데 5점척도인 경우 차원이 많아져 분석이 어려운 건지요? 감사합니다.

1
제임스 프로필

코랩에서 PDF 파일로 어떻게 변환하는 방법에 대해서... 제임스 8달 전
안녕하세요. 계속 박 강사님의 강의를 다 듣고 있는데요... 실습하는 파이썬 코드 노트를 오프라인으로 PDF 파일로 보면서 학습하려고 하는데 코랩에서 PDF 파일로 변환하는 방법을 도저히 인터넷에서 찾을 수 가 없어서요.  혹시 알고 계시거나 다른 방법이 있는지요?..

2
류성관 프로필

질문입니다.! 류성관 9달 전
: from sklearn.feature_extraction.text import CountVectorizer from sklearn.pipeline import Pipeline # 튜토리얼과 다르게 파라메터 값을 수정 # 파라메터 값만 수정해도 캐글 스코어 차이가 많이 남 vectorizer = CountVectorizer(analyzer = 'word', tokenizer = None, preprocessor = None, stop_words = None, min_df = 2, # 토큰이 나타날 최소 문서 개수 ngram_range=(1, 3), max_features = 20000 ) vectorizer여기서 토큰이 나타날 최소 문서갯수가 정확하게 무슨의미인가요..?와닿지가 않아서..

1
sbrhim 프로필

bag of centroid 관련 질문 sbrhim 9달 전
Part3 에서 bag of centroid 는 단지 클러스터링 된 word  각각에 대해 몇번 클러스터에 속했는지 one-hot encoding 으로 바꿔주는 건가요??

1
류성관 프로필

안녕하세요. 수업듣고 여쭤보고 싶은게 있습니다. 류성관 10달 전
wardtovec도 벡터화하는건데 이거를 머신러닝의 입력으로도 많이 활용되나요 ..?? CounterVectorizer는 딥러닝에 적합하지 않는데 역으로 wordtovec은 어떤지 궁금합니다 ..ㅎ..강의를 끝까지 안듣고 질문한걸수도있는데 급 궁금해서요. 그리고 단어연관도 서로 묶어주고하며은 당연히 wordtovec이 압도적으로 좋고 많이써야되는거 아니에여?

1
Yoon Jong Mun 프로필

gensim 에러가 계속되네요. Yoon Jong Mun 10달 전
ImportError: No module named gensim.models from gensim.models import word2vec 통해서 word2vec을 실행하는데, 위의 오류가 계속돼 GitHub의 해결 방식을 계속 실행해 해보지만 계속 오류가 나네요. 혹시 관련 문제에 대해서 해결방안이 있을까요? 

1
김기만 프로필

RandomForest와 성능 Score 김기만 11달 전
1. RandomForest와 성능 Score RandomForest와 그 아래 성능 Score에 대한 개념 설명 좀 부탁 드립니다. 랜덤포레스트는 여러 개의 디시젼트리를 돌려서 데이터를 학습시키고 각각의 디시젼 트리는 총 데이터 중에 각각 다른 부분을 가지고 학습을 하여 성능 점수가 산출되며 cross_val_score 함수로 그 평균을 구하여 최종 score를 산출하는 것으로 이해하고 있습니다. 이게 맞나요? 그리고 최종 score가 모델의 최종 성능을 의미한는 건가요?

1
여성의 날 특별 할인 중(D-3)

20%

17,600원

22,000원
내 목록 추가 442 공유
지식공유자 : 박조은
총 17개 수업˙총 3시간 30분
평생 무제한 수강
수료증 발급 강의
입문 초급 중급이상 대상
이 강의는 멘토링 신청이 가능합니다.
멘토링은 수강 신청과 별개로 운영되며, 수강생이 아니어도 신청할 수 있습니다.
지식공유자 되기
많은 사람들에게 배움의 기회를 주고,
경제적 보상을 받아보세요.
지식공유참여
기업 교육을 위한 인프런
“인프런 비즈니스” 를 통해 모든 팀원이 인프런의 강의를
자유롭게 학습하는 환경을 제공하세요.
인프런 비즈니스