뉴스 대량 크롤링 질문입니다.

Question

안녕하세요. 뉴스 크롤링시 엑셀파일로 url이 3000여개 정도 되는데 이 url로 뉴스 제목, 본문을 가져와서 워드클라우드 및 토픽모델링하는 방법 없을까요?

My Incizor · Answer

안녕하십니까, 인사이저 입니다. 질문에 답변드리겠습니다. 질문 내용을 파악해본 바, 현재 뉴스 링크만 수집하신 것으로 보이며, 뉴스 본문 데이터(제목, 기사 내용 등)를 어떻게 수집하실 지 여쭤보신 것으로 판단 됩니다. 웹 페이지 상의 인터넷 뉴스의 경우 html 태그로 구성되어 있으며, 해당 html 태그를 BeautifulSoup 라이브러리를 통해 가공 가능한 형태로 수정, 제목, 혹은 본문 내용이 있는 태그를 찾아 text를 추출하는 방법 을 거쳐야 말씀해주신 데이터를 수집하실 수 있을 것입니다. 다만 뉴스 사이트마다 저마다 다른 html 태그 구조 를 지니고 있으므로, 수집하려는 뉴스의 사이트 html 구조를 각각 파악을 하시고 코드를 짜셔야 할 것으로 보입니다. 또한 바로 워드 클라우드나 토픽 모델링을 적용하기엔 바로 추출한 텍스트에 잡음이 많을 것으로 판단되니, 전처리 과정도 충분히 거치셔야 할 것 입니다. 한 번 크롤링을 시도해보시고, 추가로 궁금한 사항이 있을 시 언제든 문의 주시기 바랍니다. 감사합니다.