작성
·
214
답변 1
0
안녕하십니까, 인사이저 입니다.
분석하시려는 어떠한 데이터나 상황에 대해,
제공해주신 정보가 부족하여 자세한 설명을 드리기엔 어려움이 있으나,
수집하신 블로그 글들에 대해 토픽 모델링을 진행한다면
글을 구분하여 명사 추출을 진행하셔야 될 것으로 보입니다.
예를 들어,
[글1], [글2], [글3] ...
이렇게 데이터가 구분되어 있다고 하면
[글1 글2 글3... 명사들] 이 아닌,
[글 1의 명사들], [글 2의 명사들], [글 3의 명사들]..
이런 형태로 블로그 글 별로 명사를 추출해야
이후 블로그 글 별로 토픽 클러스터링 등을 진행하실 수 있을 것입니다.
또한 명사 추출의 경우
TfIdfVectorizer 사용 시 Tokenize를 설정하신다는 가정 하에
(강의에선 Konlpy 형태소 분석기를 적용하도록 나와있을 겁니다.)
자동으로 명사 추출까지 진행 될 것이므로 따로 추출하는 과정은 거치실 필요가 없을 것으로 보입니다.
한 번 내용을 확인해보시고 추가로 궁금한 사항이 있을 시
재 문의 바랍니다.
감사합니다.