토픽 모델링
266
작성한 질문수 1
네이버 블로그를 크롤링 한 후 토픽 모델링을 하려고 하는데요
모든 글을 크롤링 한 후에 이것을 글 구분 없이 하나의 텍스트로 보고 전체의 텍스트에서 명사를 추출한 후 토픽 모델링을 하는 것이 맞는지 궁금해서 질문남김니다.
답변 1
0
안녕하십니까, 인사이저 입니다.
분석하시려는 어떠한 데이터나 상황에 대해,
제공해주신 정보가 부족하여 자세한 설명을 드리기엔 어려움이 있으나,
수집하신 블로그 글들에 대해 토픽 모델링을 진행한다면
글을 구분하여 명사 추출을 진행하셔야 될 것으로 보입니다.
예를 들어,
[글1], [글2], [글3] ...
이렇게 데이터가 구분되어 있다고 하면
[글1 글2 글3... 명사들] 이 아닌,
[글 1의 명사들], [글 2의 명사들], [글 3의 명사들]..
이런 형태로 블로그 글 별로 명사를 추출해야
이후 블로그 글 별로 토픽 클러스터링 등을 진행하실 수 있을 것입니다.
또한 명사 추출의 경우
TfIdfVectorizer 사용 시 Tokenize를 설정하신다는 가정 하에
(강의에선 Konlpy 형태소 분석기를 적용하도록 나와있을 겁니다.)
자동으로 명사 추출까지 진행 될 것이므로 따로 추출하는 과정은 거치실 필요가 없을 것으로 보입니다.
한 번 내용을 확인해보시고 추가로 궁금한 사항이 있을 시
재 문의 바랍니다.
감사합니다.
jpype 설치관련
0
1846
2
Konlpy 설치
0
1004
2
Konlpy 설치 페이지에서 jpype 설치 링크
0
390
1
맥 os에서 폰트 경로 지정*코랩 사용
0
1266
1
Re. Konlpy 설치오류(Okt 오류)
0
1601
1
Konlpy 설치 오류
0
3854
1
tfidf 관련
0
531
1
TF-IDF 질문입니다.
0
554
1
토픽모델링 날짜 관련 오류
0
273
1
질문드립니다.
0
354
1
워드클라우드 plt.subplot 질문
0
326
1
p54 문의드립니다
0
198
1
문의드립니다.
0
1058
1
문의드립니다
0
218
1
p55 문의드립니다
0
228
1
mecab 설치 오류
0
477
1
mecab 설치 오류
0
1376
1
가이드 53페이지 질문(konlpy 파일 없음)
0
290
1
konlpy 설치 오류
0
632
1
jpype 설치 오류
0
280
1
wordcloud image mask가 적용이 안됩니다.
0
1288
1
wordcloud 설치가 안됩니다
0
275
1
가상환경 3.7.11로 설치한 가상환경을 conda info로 확인한 버전과 python --version으로 확인한 버전과 다릅니다.
0
671
1
p.45 konlpy 설치 확인단계에서 오류가 발생합니다.
0
6081
4





