수강이 제한됩니다.
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
has no attribute 'syn0'
word2vec 모델이 syn0 라는 특성을 갖지 않는다고 나오는데 어떻게 해결해야 하나요 ?
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
영상 "섹션1. [2/4] NLP 텍스트 데이터 전처리" 부분에 대해 질문 있습니다!
"섹션1. [2/4] NLP 텍스트 데이터 전처리" 에서 17:55 부분에 time ~ 코드가 원래 몇시간 동안 기다려야 하는건가요..?? 30분 넘게 기다렸는데도 계속 * 표시에서 아무 변화가 없네요;; 이럴 때는 어떻게 해야하나요? 그냥 계속 기다리면 될까요? 그리고 23:35에서 검은색 창을 윈도우 버전은 어떻게 띄우나요?
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
wget 오류
안녕하세요? 수업 정말 잘 듣고 있습니다. 다름이 아니라, !wget https://github.com/corazzon/KaggleStruggle/raw/master/word2vec-nlp-tutorial/KaggleWord2VecUtility.py 이 코드를 실행하면, 'wget'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는 배치 파일이 아닙니다. 라는 오류가 뜹니다. 코랩에서는 잘 실행되는 것을 보니 제 컴퓨터의 문제인 것 같습니다. 그래서 여기저기 찾아서 환경 변수 추가도 해보았는데 해결이 안 되네요. 그래서 질문 남깁니다! 어떻게 해결하면 좋을까요?
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
html5lib 과 lxml 에서 모두 에러가 발생하고 있습니다.
안녕하세요. 강의를 들으면서 따라하고 있습니다. Colab에서는 잘 수행되었는데, WIndows PC에서 수행하려고 하니 잘 안되고 있습니다. !pip install html5lib !pip install lxml ######### from bs4 import BeautifulSoup example1 = BeautifulSoup(train['review'][0], "lxml") example1 = BeautifulSoup(train['review'][0], "html5lib") ######### 오류 메시지는 --------------------------------------------------------------------------- FeatureNotFound Traceback (most recent call last) <ipython-input-54-8cdcac2fe5bc> in <module> 3 # import lxml.html as l 4 ----> 5 example1 = BeautifulSoup(train['review'][0], "html5lib") c:\program files\python38\lib\site-packages\bs4\__init__.py in __init__(self, markup, features, builder, parse_only, from_encoding, exclude_encodings, element_classes, **kwargs) 240 builder_class = builder_registry.lookup(*features) 241 if builder_class is None: --> 242 raise FeatureNotFound( 243 "Couldn't find a tree builder with the features you " 244 "requested: %s. Do you need to install a parser library?" FeatureNotFound: Couldn't find a tree builder with the features you requested: html5lib. Do you need to install a parser library?----------------------------------어떻게 해야 할까요?PC에서는 더 이상 진행이 되질 않습니다. ㅠ.ㅠ
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
np.sum(train_data_features, axis = 0)에 대해 질문 드립니다.
train_data_features는 row가 문장번호, column은 단어의 번호, value는 문장번호에서 단어의 빈도수인 2D 형태로 이해를 하고 있습니다. 그런데, np.sum(train_data_features, axis = 0)을 하게 된다면 각 문장에서 나오는 모든 단어의 빈도수를 더하게 되는것이 아닌가요?
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
fit_transform에 대해 질문 드립니다.
1. pipeline.fit_transform의 기능에 대해 이해가 잘 가지 않습니다. 원래 clean_train_reviews는 아래 그림과 같이 단어들이 들어가 있었는데 pipeline.fit_transform을 실행하니, 아래와 같이 바뀌었네요. 아래의 튜플의 숫자들은 어떤 의미를 갖고 있는건가요?? 2. 머신러닝에 관한 개념이나 지식이 없어서 그런지... 이전의 데이터 분석 강의와는 난이도가 다르게 느껴지네요... 혹시 참고할만한 자료가 있을까요?
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
pipeline transform과 fit_transform의 차이
안녕하세요 강사님, NLP 또한 잘 보고 있는데 질문이 하나 있습니다. 아래에는 데이터를 벡터화 하기 위해 파이프라인의 fit_transform으로 변환했는데, #벡터화 파라미터 설정하여 벡터화 템플릿 생성 vectorizer = CountVectorizer(analyzer ="word", tokenizer=None, preprocessor = None, stop_words = None, min_df = 2, ngram_range=(1,3), max_features = 20000 ) pipeline = Pipeline([ ('vect', vectorizer), ]) %time train_data_features = pipeline.fit_transform(train["review_clean"]) train_data_features 뒤에서 실제 테스트 데이터를 벡터화할 때는 transform으로 하셨습니다. %time test_data_features = pipeline.transform(clean_test_reviews) test_data_features = test_data_features.toarray() 혹시 fit_transform()과 transform()의 차이가 있는지 문의드립니다. NLP에 호기심이 많이 가는데, 복잡하고 어렵네요..
- 해결됨[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
KaggleWord2VecUtility 패키지 만들기
안녕하세요. 좋은 강의 항상 감사드립니다. 저는 주피터 노트북이아니라 캐글 자체 노트북에서 코드를 따라하면서 진행을 하는데요, 캐글 노트북에서 KaggleWord2VecUtility 패키지는 어떻게 만드나요? https://github.com/corazzon/KaggleStruggle/blob/master/word2vec-nlp-tutorial/KaggleWord2VecUtility.py 여기 나와있는데로 기존 노트북에 복사 붙여넣기 한다음 패키지를 불러왔는데 오류가 뜨더라구요!
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
멀티프로세싱 에러 질문입니다.
안녕하세요. 실습을 하던 중 아래코드에서 AttributeError가 발생해서 질문 올립니다. 코드 : from multiprocessing import Pool import numpy as np def _apply_df(args): df, func, kwargs = args return df.apply(func, **kwargs) def apply_by_multiprocessing(df, func, **kwargs): # 키워드 항목 중 workers 파라메터를 꺼냄 workers = kwargs.pop('workers') # 위에서 가져온 workers 수로 프로세스 풀을 정의 pool = Pool(processes=workers) # 실행할 함수와 데이터프레임을 워커의 수 만큼 나눠 작업 result = pool.map(_apply_df, [(d, func, kwargs) for d in np.array_split(df, workers)]) pool.close() # 작업 결과를 합쳐서 반환 return pd.concat(list(result)) 이구요. 에러: AttributeError: Can't get attribute '_apply_df' on <module '__main__' (built-in)> 위와 같은 에러가 발생하는데 5달 전에 같은 문제를 겪으신 분이 계시더라구요. 해당 답변에 colab에서는 잘 실행이 되는데 제 PC에서는 에러가 생기는데 어떻게 해야 해결될까요?
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
sklearn NaN 처리방법
안녕하세요. part 2의 아래의 코드 실행 시 오류가 발생합니다. %time forest = forest.fit(trainDataVecs, train["sentiment"] ) --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-67-0162f257485a> in <module>() ----> 1 get_ipython().magic('time forest = forest.fit(trainDataVecs, train["sentiment"] )') 6 frames <decorator-gen-60> in time(self, line, cell, local_ns) <timed exec> in <module>() /usr/local/lib/python3.6/dist-packages/sklearn/utils/validation.py in _assert_all_finite(X, allow_nan, msg_dtype) 58 msg_err.format 59 (type_err, ---> 60 msg_dtype if msg_dtype is not None else X.dtype) 61 ) 62 # for object dtype data, we only check for NaNs (GH-13254) ValueError: Input contains NaN, infinity or a value too large for dtype('float32').해결방법이 있을 지 문의드립니다.
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
sentiment 가 0과 1이 아닌 1~5점 일 경우?
안녕하세요. 좋은 강의 감사드립니다. 코드를 따라가며 실행해보고 있는데 , sentiment 값이 0과 1이 아닌 5점척도 인 경우 어느 부분일 수정해야하는지요? 우선 아래의 코드 실행시 아래와 같은 오류가 발생합니다. from sklearn.model_selection import cross_val_score %time score = np.mean(cross_val_score(\ forest, train_data_features, \ train['rating'], cv=10, scoring='roc_auc')) score => error : multiclass format is not supported 강의 전체가 0과 1인 경우만을 기준으로 진행되는데 5점척도인 경우 차원이 많아져 분석이 어려운 건지요? 감사합니다.
- 해결됨[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
코랩에서 PDF 파일로 어떻게 변환하는 방법에 대해서...
안녕하세요. 계속 박 강사님의 강의를 다 듣고 있는데요... 실습하는 파이썬 코드 노트를 오프라인으로 PDF 파일로 보면서 학습하려고 하는데 코랩에서 PDF 파일로 변환하는 방법을 도저히 인터넷에서 찾을 수 가 없어서요. 혹시 알고 계시거나 다른 방법이 있는지요?..
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
질문입니다.!
: from sklearn.feature_extraction.text import CountVectorizer from sklearn.pipeline import Pipeline # 튜토리얼과 다르게 파라메터 값을 수정 # 파라메터 값만 수정해도 캐글 스코어 차이가 많이 남 vectorizer = CountVectorizer(analyzer = 'word', tokenizer = None, preprocessor = None, stop_words = None, min_df = 2, # 토큰이 나타날 최소 문서 개수 ngram_range=(1, 3), max_features = 20000 ) vectorizer여기서 토큰이 나타날 최소 문서갯수가 정확하게 무슨의미인가요..?와닿지가 않아서..
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
bag of centroid 관련 질문
Part3 에서 bag of centroid 는 단지 클러스터링 된 word 각각에 대해 몇번 클러스터에 속했는지 one-hot encoding 으로 바꿔주는 건가요??
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
안녕하세요. 수업듣고 여쭤보고 싶은게 있습니다.
wardtovec도 벡터화하는건데 이거를 머신러닝의 입력으로도 많이 활용되나요 ..?? CounterVectorizer는 딥러닝에 적합하지 않는데 역으로 wordtovec은 어떤지 궁금합니다 ..ㅎ..강의를 끝까지 안듣고 질문한걸수도있는데 급 궁금해서요. 그리고 단어연관도 서로 묶어주고하며은 당연히 wordtovec이 압도적으로 좋고 많이써야되는거 아니에여?
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
gensim 에러가 계속되네요.
ImportError: No module named gensim.models from gensim.models import word2vec 통해서 word2vec을 실행하는데, 위의 오류가 계속돼 GitHub의 해결 방식을 계속 실행해 해보지만 계속 오류가 나네요. 혹시 관련 문제에 대해서 해결방안이 있을까요?
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
RandomForest와 성능 Score
1. RandomForest와 성능 Score RandomForest와 그 아래 성능 Score에 대한 개념 설명 좀 부탁 드립니다. 랜덤포레스트는 여러 개의 디시젼트리를 돌려서 데이터를 학습시키고 각각의 디시젼 트리는 총 데이터 중에 각각 다른 부분을 가지고 학습을 하여 성능 점수가 산출되며 cross_val_score 함수로 그 평균을 구하여 최종 score를 산출하는 것으로 이해하고 있습니다. 이게 맞나요? 그리고 최종 score가 모델의 최종 성능을 의미한는 건가요?
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
vectorizer.get_feature_names() 문의
안녕하세요. 아래와 같이 두 가지 질문 드립니다. 1. 아래와 같이 vocab 변수를 만들 때 train_data_features의 데이터를 지정해주지 않는데 어떻게 vocab 변수는 train_data_features의 feature 데이터를 가지고 있는건가요? vocab = vectorizer.get_feature_names() print(len(vocab)) vocab[:10] 아래 파이프라인 과정에서 처리되는건가요? pipeline = Pipeline([ ('vect', vectorizer),]) 2. 아래 코드 해석 좀 부탁드릴께요.. # 벡터화 된 피처를 확인해 봄 import numpy as np dist = np.sum(train_data_features, axis=0) for tag, count in zip(vocab, dist): print(count, tag) pd.DataFrame(dist, columns=vocab)
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
CountVectorizer 파라미터 질문
안녕하세요. 아래 질문과 비슷한 내용인데 답변이 없어서 다시 질문 드립니다. 1. 파라미텅 중 analyzer, tokenizer, preprocessor에 대해서 설명 좀 부탁 드립니다. 구글링해도 명확하게 이해가 안되네요ㅜㅜ 2. 파라미터 중 stop_words가 있더라구요. 앞에도 별도로 불용어 처리 안해주고 여기서 처리해도 되는건가요? 3. max_features 지정할 때 참조할만한 기준이 있나요? min-df와는 연관성이 없나요? 강의 중에 간단하게나마 설명해 주시면 더 감사하겠습니다 ^^;; 저같은 초보들은 구글링하는 데 시간이 꽤 걸러서요ㅜㅜ
- 미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
import 문의
import할 때 왜 pandas, re는 import pandas 형태로 가져오고 nltk, BeautifulSoup는 별도로 설치하거나 from bs4 import BeautifulSoup 이런식으로 사용하는 건가요? 여기서 bs4는 뭐라고 부르나요? pandas는 모듈? BeautifulSoup는 패키지인가요?