강의

멘토링

커뮤니티

Inflearn Community Q&A

heart200210102177's profile image
heart200210102177

asked

[Revised Edition] The Complete Guide to Python Machine Learning

nlp 군집화 실습

Written on

·

213

0

여기 문서 군집화 소개와 실습(Opinion Review 데이터 세트)에서요

import pandas as pd
import glob, os

path = r'/content/gdrive/My Drive/MachineLearning/OpinosisDataset1.0/topics'
all_files = glob.glob(os.path.join(path, "*.data"))

filename_list = []
opinion_text = []

for file_ in all_files:
  df2 = pd.read_table(file_, index_col=None, header=0, encoding='latin1')

  filename_ = file_.split('/')[-1]
  filename = filename_.split('.')[0]
  
  filename_list.append(filename)
  opinion_text.append(df2.to_string())

document_df = pd.DataFrame({'filename':filename_list, 'opinion_text':opinion_text})
document_df.head()
document_df.dtypes
document_df['opinion_text']
이렇게 치면 opinion_text 가 보이지 않고
 opinion_text.append(df2.to_string()) 여기서 to_string() 을 없애면 잘 보이는데 이 to_string() 의 의미와 역할이 궁금하고
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vect = TfidfVectorizer(tokenizer=LemNormalize, stop_words='english' ,ngram_range=(1,2), min_df=0.05, max_df=0.85 )

feature_vect = tfidf_vect.fit_transform(document_df['opinion_text'])
feature_vect
이 구문에서
feature_vect = tfidf_vect.fit_transform(document_df['opinion_text'])
여기에서 'DataFrame' object has no attribute 'lower'오류가 뜨는데 이유가 뭘까요..
이것만 하루죙일 고민했는데 답이 안나오네요
통계머신러닝 배워볼래요? python

Answer 2

0

감사합니다!!

0

dooleyz3525님의 프로필 이미지
dooleyz3525
Instructor

안녕하십니까,

pandas의 column width를 키워보시지요.  pd.set_option('display.max_colwidth', 1000)

로 설정 할 수 있습니다. 

pd.set_option('display.max_colwidth', 1000) # 1000 자로 column 크기 키우기
document_df = pd.DataFrame({'filename':filename_list, 'opinion_text':opinion_text})
document_df.head()

두번째 질문은 실습용 소스코드 그대로 했는데 여기에서 'DataFrame' object has no attribute 'lower'오류가 뜨는데 이유가 뭘까요.. 오류가 발생한다는 건지요? 다시 한번 명확한 정의 부탁드립니다.

감사합니다.

heart200210102177's profile image
heart200210102177

asked

Ask a question