inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

파이썬 텍스트 분석 입문 - 데이터 수집부터 분석까지

토픽 모델링

266

안수현

작성한 질문수 1

0

네이버 블로그를 크롤링 한 후 토픽 모델링을 하려고 하는데요 

모든 글을 크롤링 한 후에 이것을 글 구분 없이 하나의 텍스트로 보고 전체의 텍스트에서 명사를 추출한 후 토픽 모델링을 하는 것이 맞는지 궁금해서 질문남김니다.

웹-크롤링 pandas anaconda 텍스트마이닝

답변 1

0

My Incizor

안녕하십니까, 인사이저 입니다.

분석하시려는 어떠한 데이터나 상황에 대해,

제공해주신 정보가 부족하여 자세한 설명을 드리기엔 어려움이 있으나,

수집하신 블로그 글들에 대해 토픽 모델링을 진행한다면

글을 구분하여 명사 추출을 진행하셔야 될 것으로 보입니다.

예를 들어,

[글1], [글2], [글3] ...

이렇게 데이터가 구분되어 있다고 하면

[글1 글2 글3... 명사들] 이 아닌,

[글 1의 명사들], [글 2의 명사들], [글 3의 명사들]..

이런 형태로 블로그 글 별로 명사를 추출해야

이후 블로그 글 별로 토픽 클러스터링 등을 진행하실 수 있을 것입니다.

또한 명사 추출의 경우

TfIdfVectorizer 사용 시 Tokenize를 설정하신다는 가정 하에

(강의에선 Konlpy 형태소 분석기를 적용하도록 나와있을 겁니다.)

자동으로 명사 추출까지 진행 될 것이므로 따로 추출하는 과정은 거치실 필요가 없을 것으로 보입니다.

한 번 내용을 확인해보시고 추가로 궁금한 사항이 있을 시

재 문의 바랍니다.

감사합니다.

jpype 설치관련

0

1846

2

Konlpy 설치

0

1004

2

Konlpy 설치 페이지에서 jpype 설치 링크

0

390

1

맥 os에서 폰트 경로 지정*코랩 사용

0

1266

1

Re. Konlpy 설치오류(Okt 오류)

0

1601

1

Konlpy 설치 오류

0

3854

1

tfidf 관련

0

531

1

TF-IDF 질문입니다.

0

554

1

토픽모델링 날짜 관련 오류

0

273

1

질문드립니다.

0

354

1

워드클라우드 plt.subplot 질문

0

326

1

p54 문의드립니다

0

198

1

문의드립니다.

0

1058

1

문의드립니다

0

218

1

p55 문의드립니다

0

228

1

mecab 설치 오류

0

477

1

mecab 설치 오류

0

1376

1

가이드 53페이지 질문(konlpy 파일 없음)

0

290

1

konlpy 설치 오류

0

632

1

jpype 설치 오류

0

280

1

wordcloud image mask가 적용이 안됩니다.

0

1288

1

wordcloud 설치가 안됩니다

0

275

1

가상환경 3.7.11로 설치한 가상환경을 conda info로 확인한 버전과 python --version으로 확인한 버전과 다릅니다.

0

671

1

p.45 konlpy 설치 확인단계에서 오류가 발생합니다.

0

6081

4