작성
·
322
답변 1
0
안녕하십니까, 인사이저 입니다.
질문에 답변드리겠습니다.
질문 내용을 파악해본 바,
현재 뉴스 링크만 수집하신 것으로 보이며, 뉴스 본문 데이터(제목, 기사 내용 등)를 어떻게 수집하실 지 여쭤보신 것으로 판단됩니다.
웹 페이지 상의 인터넷 뉴스의 경우 html 태그로 구성되어 있으며,
해당 html 태그를 BeautifulSoup 라이브러리를 통해 가공 가능한 형태로 수정,
제목, 혹은 본문 내용이 있는 태그를 찾아 text를 추출하는 방법을 거쳐야 말씀해주신 데이터를 수집하실 수 있을 것입니다.
다만 뉴스 사이트마다 저마다 다른 html 태그 구조를 지니고 있으므로,
수집하려는 뉴스의 사이트 html 구조를 각각 파악을 하시고
코드를 짜셔야 할 것으로 보입니다.
또한 바로 워드 클라우드나 토픽 모델링을 적용하기엔
바로 추출한 텍스트에 잡음이 많을 것으로 판단되니,
전처리 과정도 충분히 거치셔야 할 것입니다.
한 번 크롤링을 시도해보시고,
추가로 궁금한 사항이 있을 시 언제든 문의 주시기 바랍니다.
감사합니다.