인프런 커뮤니티 질문&답변

안수현님의 프로필 이미지
안수현

작성한 질문수

파이썬 텍스트 분석 입문 - 데이터 수집부터 분석까지

토픽 모델링

작성

·

214

0

네이버 블로그를 크롤링 한 후 토픽 모델링을 하려고 하는데요 

모든 글을 크롤링 한 후에 이것을 글 구분 없이 하나의 텍스트로 보고 전체의 텍스트에서 명사를 추출한 후 토픽 모델링을 하는 것이 맞는지 궁금해서 질문남김니다.

답변 1

0

My Incizor님의 프로필 이미지
My Incizor
지식공유자

안녕하십니까, 인사이저 입니다.

분석하시려는 어떠한 데이터나 상황에 대해,

제공해주신 정보가 부족하여 자세한 설명을 드리기엔 어려움이 있으나,

수집하신 블로그 글들에 대해 토픽 모델링을 진행한다면

글을 구분하여 명사 추출을 진행하셔야 될 것으로 보입니다.

예를 들어,

[글1], [글2], [글3] ...

이렇게 데이터가 구분되어 있다고 하면

[글1 글2 글3... 명사들] 이 아닌,

[글 1의 명사들], [글 2의 명사들], [글 3의 명사들]..

이런 형태로 블로그 글 별로 명사를 추출해야

이후 블로그 글 별로 토픽 클러스터링 등을 진행하실 수 있을 것입니다.

또한 명사 추출의 경우

TfIdfVectorizer 사용 시 Tokenize를 설정하신다는 가정 하에

(강의에선 Konlpy 형태소 분석기를 적용하도록 나와있을 겁니다.)

자동으로 명사 추출까지 진행 될 것이므로 따로 추출하는 과정은 거치실 필요가 없을 것으로 보입니다.

한 번 내용을 확인해보시고 추가로 궁금한 사항이 있을 시

재 문의 바랍니다.

감사합니다.

안수현님의 프로필 이미지
안수현

작성한 질문수

질문하기