inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[리뉴얼] 파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)

패턴으로 실습하며 익히기: HTML/CSS 이해를 바탕으로 크롤링하기

페이지소스가 달라서 질문드립니다.

220

hshhs0618

작성한 질문수 1

0

안녕하세요, 선생님. 좋은 수업 제공해주셔서 감사합니다. 프로그램 처음 시작해서 48강까지 온 제가 너무 신기하네요.  감사합니다. 다름이 아니라 기사가 업데이트 되었는지, 강의에서 보이는 기사의 페이지소스와 제 크롬에서 보이는 페이지소스가 달라 헷갈려서 질문 드립니다. 기사 입력날짜를 크롤링하려고 아래와 같이 했는데요. 출력이 기사입력날짜, 좋아요,댓글달기, 0,0 등이 나와서요. 어떤 부분을 수정해야할지 잘모르겠습니다.

제가 쓴 코드

import requests

from bs4 import BeautifulSoup

res = requests.get('https://www.hankookilbo.com/News/Read/201706152032519127')

soup = BeautifulSoup(res.content, 'html.parser')

mydata = soup.find_all ('div','info')

for item in mydata :

    print (item.get_text())

제 크롬에서 본 페이지소스

</div>
<h2 class="title">
잔금대출에도 DTI 규제 적용 검토</h2>
<div class="info">
<dl>
<dt>입력</dt>
<dd>2017.06.15 20:09</dd>
</dl>
<div class="tool-bar">
<!-- .tooltip-box -->
<div class="tooltip-box">
<button type="button" class="btn-like-all open-tip">
<span class="blind">좋아요</span>
</button>
<!-- .like-detail -->
<div class="like-detail tooltip">
<ul>
<li class="like" id="likeCntLi">0</li>
<li class="unlike" id="dislikeCntLi">0</li>
</ul>
</div>
<!-- // .like-detail -->
</div>
<!-- // .tooltip-box -->
<span class="count" id="sympathyCntSpan">0</span>
<button type="button" class="btn-comment">
<span class="blind">댓글달기</span>
</button>
<span class="count" id="commentCntSpan">0</span>
</div>
</div>
</div>

웹-크롤링 python

답변 3

0

hshhs0618

답변 감사합니다~ 선생님. "패턴으로 실습하며 익히기 : HTML/CSS 이해를 바탕으로 크롤링하기" 강좌 보고 질문 드렸었습니다. 질문드리고서 해당 강의 다음에 있는 강의들을 보니, 제 질문에 대한 해답들이 다 있어서 질문 안 드렸어도 될뻔했어요 ㅎㅎㅎ 강의 최고입니다! 감사합니다!

0

ses123you

강의에서 크롤링한 주소가 아니고, 한국일보에서 크롤링하셔서 차이가 있는것 같네요.

제가 도움을 드리자면 아래의 코드를 그대로 해보시면 될거에요..

기존에 작성하신 코드와 비교해 보시면 될듯해요.

import requests

from bs4 import BeautifulSoup

res = requests.get('https://www.hankookilbo.com/News/Read/201706152032519127')

soup = BeautifulSoup(res.content, 'html.parser')

mydata = soup.select_one ('div.info dd')

print (mydata.get_text())

0

잔재미코딩 DaveLee

안녕하세요. 강의를 잘 들어주셔서 감사합니다. 또 응원합니다.

그런데 크롤링 주소가 이것으로 되어 있고요, 강의 어느 부분에서 어떤 부분을 말씀하시는 것인지 잘 이해가 안가서요. 강의에서는 다음 뉴스를 크롤링하니까요. 

https://www.hankookilbo.com/News/Read/201706152032519127

새로운 질문으로 (댓글에 댓글은 제가 찾기가 어려워서요) 강의 어느 부분에서, 어떤 코드를 가지고, 어떤  부분이 강의와 다르게 동작하는지 한번 확인부탁드려도 될까요???

감사합니다.

크롤링, 영상을 따라해도 제미나에게 물어봐도 안되요

0

33

1

정규표현식 및 여러 코드 꼭 외워야 하나요?

0

39

1

리스트 함수형도 정수 데이터 받을 수 있나요?

0

45

1

크롤링 관련 질문

0

63

1

문제 답이 없는 버전은 없나요?

0

74

1

requests, BeautifulSoup 임포트 부분에 대해 문의드립니다.

0

83

1

업데이트 강의

0

97

2

선생님 강의중에서 sqlite3 강의를 제공한 강의가 있나요?

0

123

2

연습용 예제 파일

0

76

1

lxml 관련 오류

0

106

1

SAVE Request 창 띄우는 법

0

92

1

포스트맨 사용법이 바뀌어서 강의를 따라가지 못하겠습니다. 2

0

75

1

포스트맨 사용법이 바뀌어서 강의를 따라가지 못하겠습니다.

0

95

1

예제 2, 4, 6에 대한 풀이 방식 질문.

0

89

1

문제 파일

0

78

1

pdf 파일 내 코드 복붙시 공백

0

291

1

데이터 저장 강좌 문의 건

0

95

1

" " 와 ' '의 차이를 알고 싶습니다

0

242

1

Exercise 22. 문자열 다루기 (strip)

0

132

1

list함수로 리스트 선언하면 실패하는데 이유는 무엇입니까?

0

187

1

셀 삽입후 바로 기입이 가능합니까?

0

139

2

주피터 노트북 마우스 스크롤? 오류

0

1548

2

등호 2개('==')의 의미가 뭐죠?

0

459

2

페이지가 넘어갈 때 url 변하지 않는 경우

0

266

1