인프런 커뮤니티 질문&답변

임현주님의 프로필 이미지
임현주

작성한 질문수

파이썬 텍스트 분석 입문 - 데이터 수집부터 분석까지

<실습> BeautifulSoup 사용하기

뉴스 대량 크롤링 질문입니다.

작성

·

322

0

안녕하세요.

뉴스 크롤링시 엑셀파일로 url이 3000여개 정도 되는데

이 url로 뉴스 제목, 본문을 가져와서 

워드클라우드 및 토픽모델링하는 방법 없을까요?

답변 1

0

My Incizor님의 프로필 이미지
My Incizor
지식공유자

안녕하십니까, 인사이저 입니다.

질문에 답변드리겠습니다.

질문 내용을 파악해본 바,

현재 뉴스 링크만 수집하신 것으로 보이며, 뉴스 본문 데이터(제목, 기사 내용 등)를 어떻게 수집하실 지 여쭤보신 것으로 판단됩니다.

웹 페이지 상의 인터넷 뉴스의 경우 html 태그로 구성되어 있으며,

해당 html 태그를 BeautifulSoup 라이브러리를 통해 가공 가능한 형태로 수정,

제목, 혹은 본문 내용이 있는 태그를 찾아 text를 추출하는 방법을 거쳐야 말씀해주신 데이터를 수집하실 수 있을 것입니다.

다만 뉴스 사이트마다 저마다 다른 html 태그 구조를 지니고 있으므로,

수집하려는 뉴스의 사이트 html 구조를 각각 파악을 하시고

코드를 짜셔야 할 것으로 보입니다.

또한 바로 워드 클라우드나 토픽 모델링을 적용하기엔

바로 추출한 텍스트에 잡음이 많을 것으로 판단되니,

전처리 과정도 충분히 거치셔야 할 것입니다.

한 번 크롤링을 시도해보시고,

추가로 궁금한 사항이 있을 시 언제든 문의 주시기 바랍니다.

감사합니다.

임현주님의 프로필 이미지
임현주

작성한 질문수

질문하기