뉴스 대량 크롤링 질문입니다.
382
작성한 질문수 2
안녕하세요.
뉴스 크롤링시 엑셀파일로 url이 3000여개 정도 되는데
이 url로 뉴스 제목, 본문을 가져와서
워드클라우드 및 토픽모델링하는 방법 없을까요?
답변 1
0
안녕하십니까, 인사이저 입니다.
질문에 답변드리겠습니다.
질문 내용을 파악해본 바,
현재 뉴스 링크만 수집하신 것으로 보이며, 뉴스 본문 데이터(제목, 기사 내용 등)를 어떻게 수집하실 지 여쭤보신 것으로 판단됩니다.
웹 페이지 상의 인터넷 뉴스의 경우 html 태그로 구성되어 있으며,
해당 html 태그를 BeautifulSoup 라이브러리를 통해 가공 가능한 형태로 수정,
제목, 혹은 본문 내용이 있는 태그를 찾아 text를 추출하는 방법을 거쳐야 말씀해주신 데이터를 수집하실 수 있을 것입니다.
다만 뉴스 사이트마다 저마다 다른 html 태그 구조를 지니고 있으므로,
수집하려는 뉴스의 사이트 html 구조를 각각 파악을 하시고
코드를 짜셔야 할 것으로 보입니다.
또한 바로 워드 클라우드나 토픽 모델링을 적용하기엔
바로 추출한 텍스트에 잡음이 많을 것으로 판단되니,
전처리 과정도 충분히 거치셔야 할 것입니다.
한 번 크롤링을 시도해보시고,
추가로 궁금한 사항이 있을 시 언제든 문의 주시기 바랍니다.
감사합니다.
jpype 설치관련
0
1817
2
Konlpy 설치
0
989
2
Konlpy 설치 페이지에서 jpype 설치 링크
0
384
1
맥 os에서 폰트 경로 지정*코랩 사용
0
1248
1
Re. Konlpy 설치오류(Okt 오류)
0
1580
1
Konlpy 설치 오류
0
3830
1
tfidf 관련
0
518
1
TF-IDF 질문입니다.
0
542
1
토픽모델링 날짜 관련 오류
0
263
1
질문드립니다.
0
340
1
워드클라우드 plt.subplot 질문
0
312
1
p54 문의드립니다
0
193
1
문의드립니다.
0
1049
1
문의드립니다
0
210
1
p55 문의드립니다
0
223
1
mecab 설치 오류
0
467
1
mecab 설치 오류
0
1366
1
가이드 53페이지 질문(konlpy 파일 없음)
0
281
1
konlpy 설치 오류
0
621
1
jpype 설치 오류
0
275
1
wordcloud image mask가 적용이 안됩니다.
0
1277
1
wordcloud 설치가 안됩니다
0
270
1
가상환경 3.7.11로 설치한 가상환경을 conda info로 확인한 버전과 python --version으로 확인한 버전과 다릅니다.
0
663
1
p.45 konlpy 설치 확인단계에서 오류가 발생합니다.
0
6058
4





