inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Thu thập dữ liệu cực kỳ đơn giản và tốc độ cao (thu thập dữ liệu Python)

Tìm và thu thập thông tin liên kết URL

12페이지 이후 print

206

jhyeon09306618

2 câu hỏi đã được viết

0

따라 해보니까 페이지 11 마지막 기사까지만 print가 되는데요, 12페이지 이후로는 왜 안 되는 건가요? 동아일보 웹페이지는 100페이지 이후로까지 있던데요. 이유가 무엇인가요? 12페이지 이후로도 print 하려면 어떻게 해야 하나요? 

웹-크롤링 python

Câu trả lời 3

0

bokchi

안녕하세요 

왜냐하면 반복문이 soup.select("#contents > div.page >a ") 의 크기만큼 동작하는데

soup.select("#contents > div.page >a ") 이 부분의 크기가 11입니다.

soup.select("#contents > div.page >a ") 이 부분을 range(0,20)이라고 바꾸시면 20페이지까지 동작하실 겁니다 :)

0

jhyeon09306618

먼저 답변 감사드려요. 돌아는 가는데요, 11페이지 마지막 기사까지만 추출이 돼요. 그 이후에도 페이지가 100넘게까지 있는데, 그건 추출이 안 되네요. 아래 코드로 했어요. 

import requests
from bs4 import BeautifulSoup

req = requests.get("http://www.donga.com/news/List/Enter/?p=1&prod=news&ymd=&m=") # 엔터치기
soup = BeautifulSoup(req.text, 'html.parser') ## 이런 식으로 HTMl에 있는 코드를 다 가져온다

for i in soup.select("#contents > div.page >a "):
req2 = requests.get("http://www.donga.com/news/List/Enter/" + i['href']) # 페이지별 돌아다니기
soup2 = BeautifulSoup(req2.text, 'html.parser')

for i in soup2.find_all("span", class_="tit") :
print(i.text) # 기사 제목 가져오기

0

bokchi

안녕하세요!

혹시 에러코드가 나오나요 아니면 그냥 돌아가지 않는 것일까요?

해당 코드를 첨부해주시면 제가 도움드리기 더 쉬울 것 같습니다~

전처리 train() test([ ])

0

7

2

작업형 1 배경지식 질문

0

8

2

옳게 풀은건지 질문드립니다!

0

7

1

roc_auc_score

0

9

1

재귀함수 연산법

0

8

1

추가질문 합니다

0

12

1

시험환경 구름

0

12

1

2유형 질문드려요

0

8

1

RandomForest vs lgb

0

18

1

전처리 관련질문

0

14

2

안녕하세요 파이썬 관련 문의드립니다

0

283

1

개발자님 도와주세요

0

217

1

질문입니다

0

253

3

크롬드라이버 설치

0

270

1

크롬드라이버 설치질문

0

212

1

질문이요

2

255

4

브라우저가 안나와요

0

234

1

에디터와 모듈 관련

0

207

1

여러 페이지 크롤링

0

278

3

패키지 설치 방법 알려주세요

0

408

3

셀레니움 설치 관련

0

256

1

파이참설치안하고 아나콘다의 주피터 노트북으로 강의내용 따라가도되나요~?

0

246

3

chromedriver 라이브러리

2

325

3

다음 실시간 검색어 클래스 추출 불가

1

284

1