inflearn logo
강의

講義

知識共有

超簡易超スピードデータ収集(Pythonクロール)

urlリンクを見つけてクロールする

12페이지 이후 print

199

jhyeon09306618

投稿した質問数 2

0

따라 해보니까 페이지 11 마지막 기사까지만 print가 되는데요, 12페이지 이후로는 왜 안 되는 건가요? 동아일보 웹페이지는 100페이지 이후로까지 있던데요. 이유가 무엇인가요? 12페이지 이후로도 print 하려면 어떻게 해야 하나요? 

웹-크롤링 python

回答 3

0

bokchi

안녕하세요 

왜냐하면 반복문이 soup.select("#contents > div.page >a ") 의 크기만큼 동작하는데

soup.select("#contents > div.page >a ") 이 부분의 크기가 11입니다.

soup.select("#contents > div.page >a ") 이 부분을 range(0,20)이라고 바꾸시면 20페이지까지 동작하실 겁니다 :)

0

jhyeon09306618

먼저 답변 감사드려요. 돌아는 가는데요, 11페이지 마지막 기사까지만 추출이 돼요. 그 이후에도 페이지가 100넘게까지 있는데, 그건 추출이 안 되네요. 아래 코드로 했어요. 

import requests
from bs4 import BeautifulSoup

req = requests.get("http://www.donga.com/news/List/Enter/?p=1&prod=news&ymd=&m=") # 엔터치기
soup = BeautifulSoup(req.text, 'html.parser') ## 이런 식으로 HTMl에 있는 코드를 다 가져온다

for i in soup.select("#contents > div.page >a "):
req2 = requests.get("http://www.donga.com/news/List/Enter/" + i['href']) # 페이지별 돌아다니기
soup2 = BeautifulSoup(req2.text, 'html.parser')

for i in soup2.find_all("span", class_="tit") :
print(i.text) # 기사 제목 가져오기

0

bokchi

안녕하세요!

혹시 에러코드가 나오나요 아니면 그냥 돌아가지 않는 것일까요?

해당 코드를 첨부해주시면 제가 도움드리기 더 쉬울 것 같습니다~

노션 : 파트3번 링크와 권한 , 파트4번 권한요청, 파트 5번도 미리 요청 드립니다.

0

5

1

6-6 실습 문의

0

8

2

미션 06-02

0

10

1

yes24 수집 md 파일 만들 때

0

14

2

python main.py 실행시 게임이 실행이 안돼요

0

15

2

antigravity 대신 cursor를 활용해도 되나요?

0

19

1

뉴스 검색 분류 한도초과

0

25

2

완성자료

0

15

2

섹션5 노션링크 는 따로 없나요?

0

20

2

필기자료 사라졌나요?(실기 일주일만에 안돼서 재도전-_-)

0

22

2

안녕하세요 파이썬 관련 문의드립니다

0

268

1

개발자님 도와주세요

0

209

1

질문입니다

0

238

3

크롬드라이버 설치

0

261

1

크롬드라이버 설치질문

0

206

1

질문이요

2

247

4

브라우저가 안나와요

0

230

1

에디터와 모듈 관련

0

198

1

여러 페이지 크롤링

0

270

3

패키지 설치 방법 알려주세요

0

397

3

셀레니움 설치 관련

0

251

1

파이참설치안하고 아나콘다의 주피터 노트북으로 강의내용 따라가도되나요~?

0

231

3

chromedriver 라이브러리

2

315

3

다음 실시간 검색어 클래스 추출 불가

1

280

1