data폴더안에 tsv파일이 없다고 나오는데 어떻게 해야하나요?

Question

안녕하세요

Answer

Review 0 of 4673
Review 1000 of 4673

/usr/local/lib/python3.7/dist-packages/ipykernel_launcher.py:18: DeprecationWarning: Call to deprecated `__getitem__` (Method will be removed in 4.0.0, use self.wv.__getitem__() instead).
/usr/local/lib/python3.7/dist-packages/ipykernel_launcher.py:20: RuntimeWarning: invalid value encountered in true_divide

Review 2000 of 4673

---------------------------------------------------------------------------

IndexError                                Traceback (most recent call last)

<ipython-input-74-63e3b7b62136> in <module>()
----> 1 get_ipython().magic('time testDataVecs = getAvgFeatureVecs(        getCleanReviews(df_test), model, num_features )')

4 frames

<decorator-gen-53> in time(self, line, cell, local_ns)

<timed exec> in <module>()

<ipython-input-57-4f0f0d4382d8> in getAvgFeatureVecs(reviews, model, num_features)
     14            print("Review %d of %d" % (counter, len(tokenized_data)))
     15        # 평균 피처 벡터를 만들기 위해 위에서 정의한 함수를 호출한다.
---> 16        reviewFeatureVecs[int(counter)] = makeFeatureVec(review, model,            num_features)
     17        # 카운터를 증가시킨다.
     18        counter = counter + 1.

IndexError: index 2036 is out of bounds for axis 0 with size 2036

이게 혹시 왜 나타나는 오류일까요??

del df_test["Sentence"][:2037] 하면 하나씩지워지기는 하는데...

어제부터 인덱스에러가 왜 나는지 모르갰습니다..! 위에 테스트는 잘 돌아갔는데...

Answer

삭제된 글입니다

Answer

# 완성된 임베딩 매트릭스의 크기 확인 model.vectors.shape 이코드에서  'Word2Vec' object has no attribute 'vectors'  어트리뷰트에러나는데 혹시 뭐가 뭐가문제일까요? 구글링해보았는데 젠심 버전 낮췄는데도 어느샌가 부터 자꾸 이부분에서 오류가 납니다

Answer

감사합니다! 추가적으로 이 강의를 다 듣고 적용해서 한국어 데이터에 하려고 실습해보려고 하는데 이런 오류가 뜨면서 마지막에 랜덤포레스트 모델이 안돌아가는데 혹시 test랑 train데이터 행의 개수가 달라서 그런걸까요?

# 학습 리뷰를 bags of centroids 로 변환한다.
# 학습 리뷰를 bags of centroids 로 변환한다.
counter = 0
for review in clean_train_reviews:
train_centroids[counter] = create_bag_of_centroids( review, \
word_centroid_map )
counter += 1
if counter==4673:
pass

# 테스트 리뷰도 같은 방법으로 반복해 준다.
test_centroids = np.zeros((df_test["Sentence"].size, num_clusters), \
dtype="float32" )

counter = 0
for review in clean_test_reviews:
test_centroids[counter] = create_bag_of_centroids( review, \
word_centroid_map )
counter += 1
if counter==4673:
break


# 랜덤포레스트를 사용하여 학습시키고 예측
forest = RandomForestClassifier(n_estimators = 100)

# train 데이터의 레이블을 통해 학습시키고 예측한다.
# 시간이 좀 소요되기 때문에 %time을 통해 걸린 시간을 찍도록 함
print("Fitting a random forest to labeled training data...")
%time forest = forest.fit(train_centroids, df_train["Sentence"])

IndexError: index 4673 is out of bounds for axis 0 with size 4673

세번째 줄에서 에러가 나옵니다.

열은 같은데 행의 개수가 각각 4673과 267입니다.

감사합니다

제 댓글에 코드공유했습니다. 혹시 아시면 알려주시면 감사합니다!

Answer

안녕하세요.

colab 의 폴더에 파일을 업로드 해주셔야 합니다.

하지만 강의 하단의 colab 링크를 사용하시면 파일 업로드 없이 url 로 파일을 읽어와서 실습할 수 있습니다.

아래 링크를 사용하셔도 됩니다.

# 레이블인 sentiment 가 있는 학습 데이터
train = pd.read_csv('https://raw.githubusercontent.com/corazzon/KaggleStruggle/master/word2vec-nlp-tutorial/data/labeledTrainData.tsv', delimiter='\t', quoting=3)
# 레이블이 없는 테스트 데이터
test = pd.read_csv('https://raw.githubusercontent.com/corazzon/KaggleStruggle/master/word2vec-nlp-tutorial/data/testData.tsv', delimiter='\t', quoting=3)

unlabeled_train = pd.read_csv('https://raw.githubusercontent.com/corazzon/KaggleStruggle/master/word2vec-nlp-tutorial/data/unlabeledTrainData.tsv',
header=0, delimiter='\t', quoting=3)

chowon9707

data폴더안에 tsv파일이 없다고 나오는데 어떻게 해야하나요?

이 글과 비슷한 Q&A

14. distplot g = sns.FacetGrid(df_last, row="지역명", height=1.7, aspect=4) g.map(sns.distplot, "평당분양가격", hist=False, rug=True); 오류

개발환경 구축 관련하여 질문드립니다.

파이참으로 하면 결과값이 다른데 왜그런거죠?

linear regression 과 PCA, p_value 질문