• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

뉴스 크롤링 코드 관련 문의합니다.

20.10.15 20:17 작성 조회수 161

0

크롤링하기 수업을 듣는 중에 크롤링을 하는 과정에서

import requests

from bs4 import BeautifulSoup

res=requests.get('http://www.hani.co.kr/arti/society/health/965832.html')

soup=BeautifulSoup(res.content,'html.parser')

data=soup.find('h4')

data.get_text()

 결과가 

\n\n코로나19 신규 확진자 110명…요양병원 집단감염 영향\n\n'

글자 옆에   돈표시같은게 같이 나와서

import requests

from bs4 import BeautifulSoup

res=requests.get('http://www.hani.co.kr/arti/society/health/965832.html')

soup=BeautifulSoup(res.content,'html.parser')

data=soup.find('span', 'title')

data.get_text()

하니까 

 '코로나19 신규 확진자 110명…요양병원 집단감염 영향'

으로 나오는데요.

h4와 span의 차이가 궁금합니다.

크롤링한 뉴스 html이미지로 첨부합니다. 

크롤링한 뉴스url입니다. 

http://www.hani.co.kr/arti/society/health/965832.html

그리고 뉴스의 텍스트 추출하는 과정에서 

import requests

from bs4 import BeautifulSoup

res=requests.get('http://www.hani.co.kr/arti/society/health/965832.html')

soup=BeautifulSoup(res.content,'html.parser')

mydata=soup.find('div', 'text')

mydata.get_text()

이렇게 했는데 아무것도 안뜹니다.  왜 아무것도 안뜰까요? 오류메시지도 안뜨고 아무것도 안떠요 

답변 1

답변을 작성해보세요.

0

안녕하세요. 이 부분 공지로도 이야기드린 부분이라, 양해를 부탁드립니다.

참고로, h4 는 제목, span 은 특정 요소들을 한데 묶어서, class 등을 적용하는데 쓰이는 태그이긴 한데요. 크롤링에서 태그는 단순히 어떤 식으로 요소를 감싸고 있는지만 판단하면 됩니다. 또한 동적 페이지 같은 경우에는 HTML 코드를 동적으로 표시하기 때문에, 중급 기술인 selenium 기술로 크롤링을 해야 합니다. 아마 그래서 안나왔으리라 생각이 듭니다. 이 부분은 현재 강의를 다 완강하신 후에, selenium/scrapy 강의를 들어보셔도 좋을 것 같습니다. 감사합니다.

---------------------------

안녕하세요. 잔재미코딩 Dave Lee 입니다.

오늘은 한가지 공지를 드려요~~

그동안 정말 다양하고 많은 분들께서 수강을 해주고 계시는데요. 그러다보니, 질문/답변 란에 동일한 이야기를 드릴 때가 많아서 공유를 드려요.

질문/답변 란에, 각자 원하시는 크롤링 코드 관련 문의를 해주시는 경우가 꽤 있었는데요. 그 때마다, 가급적 배려를 드리는 차원으로, 가볍게 볼 수 있는 부분에 대해서만 답변을 드리기는 했습니다. 하지만, 해당 질문/답변 란은 본 강의 영상과 관련한 질문이 있을 때를 답변해드리는 것이 기본 취지인 것 같아요. 

온라인 수학 강의를 수강하면서, 강의에 나온 수학공식을 사용하는 강의 외에 각자 풀고 있는 수학 문제를 질문하고, 이를 풀어드리는 강의는 본 적이 없는데요. 마찬가지로 본 강의를 수강하시면서, 각자의 코드나, 각자 원하시는 크롤링 코드를 작성해드리거나, 함께 풀어나가는 것은 현실적으로 큰 무리가 있습니다.

더군다나 본 강의가 평생 수강이 가능하기 때문에, 이를 지원해드릴 경우, 본 강의를 들으면 내가 원하는 크롤링 코드는 모두 해결해드려야 하는 오해 아닌 오해도 생길 수 있고요. 심지어, 저도 실제 코드를 작성해봐야 해서, 코드를 작성하느라 답변이 늦어지면, 다른 답변이 늦어질 수도 있어서, 다른 수강생분들께도 문제가 될 수 있을 것 같습니다.

그래서, 질문/답변란에 문의를 주실 때에는 각자의 원하시는 크롤링 코드 관련 문의는 안해주시면 감사하겠습니다. 이 부분 꼭 양해를 부탁드립니다.

또한 가능하다면,

1) 어느 챕터의 몇분(:몇초)정도에서 이 부분이 이해가 안간다 와 같은 식으로 질문을 해주시면,

2) 강의에서 나온 코드는 이미지 캡쳐보다, 코드 자체를 텍스트로 질문에 붙여주시면,

훨씬 저도 이해가 빨라서, 빠르게 지금과 같이 상세하게 답변드릴 수 있을 것 같습니다.

감사합니다.~~~ 잔재미코딩 드림