토픽 모델링

Question

네이버 블로그를 크롤링 한 후 토픽 모델링을 하려고 하는데요 모든 글을 크롤링 한 후에 이것을 글 구분 없이 하나의 텍스트로 보고 전체의 텍스트에서 명사를 추출한 후 토픽 모델링을 하는 것이 맞는지 궁금해서 질문남김니다.

My Incizor · Answer

안녕하십니까, 인사이저 입니다. 분석하시려는 어떠한 데이터나 상황에 대해, 제공해주신 정보가 부족하여 자세한 설명을 드리기엔 어려움이 있으나, 수집하신 블로그 글들에 대해 토픽 모델링을 진행한다면 글을 구분하여 명사 추출을 진행하셔야 될 것 으로 보입니다. 예를 들어, [글1], [글2], [글3] ... 이렇게 데이터가 구분되어 있다고 하면 [글1 글2 글3... 명사들] 이 아닌, [글 1의 명사들], [글 2의 명사들], [글 3의 명사들].. 이런 형태로 블로그 글 별로 명사를 추출해야 이후 블로그 글 별로 토픽 클러스터링 등을 진행하실 수 있을 것입니다. 또한 명사 추출의 경우 TfIdfVectorizer 사용 시 Tokenize를 설정하신다는 가정 하에 (강의에선 Konlpy 형태소 분석기를 적용하도록 나와있을 겁니다.) 자동으로 명사 추출까지 진행 될 것이므로 따로 추출하는 과정은 거치실 필요가 없을 것으로 보입니다. 한 번 내용을 확인해보시고 추가로 궁금한 사항이 있을 시 재 문의 바랍니다. 감사합니다.