data폴더안에 tsv파일이 없다고 나오는데 어떻게 해야하나요?

Question

안녕하세요

chowon9707 · Answer

Review 0 of 4673 Review 1000 of 4673 /usr/local/lib/python3.7/dist-packages/ipykernel_launcher.py:18: DeprecationWarning: Call to deprecated `__getitem__` (Method will be removed in 4.0.0, use self.wv.__getitem__() instead). /usr/local/lib/python3.7/dist-packages/ipykernel_launcher.py:20: RuntimeWarning: invalid value encountered in true_divide Review 2000 of 4673 --------------------------------------------------------------------------- IndexError Traceback (most recent call last) in () ----> 1 get_ipython ( ) . magic ( 'time testDataVecs = getAvgFeatureVecs( getCleanReviews(df_test), model, num_features )' ) 4 frames in time (self, line, cell, local_ns) in () in getAvgFeatureVecs (reviews, model, num_features) 14 print ( "Review %d of %d" % ( counter , len ( tokenized_data ) ) ) 15 # 평균 피처 벡터를 만들기 위해 위에서 정의한 함수를 호출한다. ---> 16 reviewFeatureVecs [ int ( counter ) ] = makeFeatureVec ( review , model , num_features ) 17 # 카운터를 증가시킨다. 18 counter = counter + 1. IndexError : index 2036 is out of bounds for axis 0 with size 2036 이게 혹시 왜 나타나는 오류일까요?? del df_test[ "Sentence" ][: 2037 ] 하면 하나씩지워지기는 하는데... 어제부터 인덱스에러가 왜 나는지 모르갰습니다..! 위에 테스트는 잘 돌아갔는데...

chowon9707 · Answer

삭제된 글입니다

chowon9707 · Answer

# 완성된 임베딩 매트릭스의 크기 확인 model.vectors.shape 이코드에서 'Word2Vec' object has no attribute 'vectors' 어트리뷰트에러나는데 혹시 뭐가 뭐가문제일까요? 구글링해보았는데 젠심 버전 낮췄는데도 어느샌가 부터 자꾸 이부분에서 오류가 납니다

chowon9707 · Answer

감사합니다! 추가적으로 이 강의를 다 듣고 적용해서 한국어 데이터에 하려고 실습해보려고 하는데 이런 오류가 뜨면서 마지막에 랜덤포레스트 모델이 안돌아가는데 혹시 test랑 train데이터 행의 개수가 달라서 그런걸까요? # 학습 리뷰를 bags of centroids 로 변환한다. # 학습 리뷰를 bags of centroids 로 변환한다. counter = 0 for review in clean_train_reviews: train_centroids[counter] = create_bag_of_centroids( review, \ word_centroid_map ) counter += 1 if counter== 4673 : pass # 테스트 리뷰도 같은 방법으로 반복해 준다. test_centroids = np.zeros((df_test[ "Sentence" ].size, num_clusters), \ dtype= "float32" ) counter = 0 for review in clean_test_reviews: test_centroids[counter] = create_bag_of_centroids( review, \ word_centroid_map ) counter += 1 if counter== 4673 : break # 랜덤포레스트를 사용하여 학습시키고 예측 forest = RandomForestClassifier(n_estimators = 100 ) # train 데이터의 레이블을 통해 학습시키고 예측한다. # 시간이 좀 소요되기 때문에 %time을 통해 걸린 시간을 찍도록 함 print ( "Fitting a random forest to labeled training data..." ) %time forest = forest.fit(train_centroids, df_train[ "Sentence" ]) IndexError : index 4673 is out of bounds for axis 0 with size 4673 세번째 줄에서 에러가 나옵니다. 열은 같은데 행의 개수가 각각 4673과 267입니다. 감사합니다 제 댓글에 코드공유했습니다. 혹시 아시면 알려주시면 감사합니다!

todaycode · Answer

안녕하세요. colab 의 폴더에 파일을 업로드 해주셔야 합니다. 하지만 강의 하단의 colab 링크를 사용하시면 파일 업로드 없이 url 로 파일을 읽어와서 실습할 수 있습니다. 아래 링크를 사용하셔도 됩니다. # 레이블인 sentiment 가 있는 학습 데이터 train = pd.read_csv( 'https://raw.githubusercontent.com/corazzon/KaggleStruggle/master/word2vec-nlp-tutorial/data/labeledTrainData.tsv' , delimiter= '	' , quoting= 3 ) # 레이블이 없는 테스트 데이터 test = pd.read_csv( 'https://raw.githubusercontent.com/corazzon/KaggleStruggle/master/word2vec-nlp-tutorial/data/testData.tsv' , delimiter= '	' , quoting= 3 ) unlabeled_train = pd.read_csv( 'https://raw.githubusercontent.com/corazzon/KaggleStruggle/master/word2vec-nlp-tutorial/data/unlabeledTrainData.tsv' , header= 0 , delimiter= '	' , quoting= 3 )