inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Thu thập dữ liệu cực kỳ đơn giản và tốc độ cao (thu thập dữ liệu Python)

Tìm và thu thập thông tin liên kết URL

질문이요

255

Inhoo Song

5 câu hỏi đã được viết

2

import requests
from bs4 import BeautifulSoup
req = requests.get(
'https://www.donga.com/news/Entertainment/List?p=1&prod=news&ymd=&m=')
soup = BeautifulSoup(req.text
, 'html.parser')

for i in soup.select("#contents > div.page > a") :

req2 = requests.get(
"http://www.donga.com/news/List/Enter/" + i['href'])
soup2 = BeautifulSoup(req2.text
, 'html.parser')

for i in soup2.find_all("span", class_="tit") :
print(i.text)


C:\Users\karma\PycharmProjects\pychamwebcrawling\venv\Scripts\python.exe "C:/Users/karma/PycharmProjects/pychamwebcrawling/01_web_crawling_naver_test/url 링크 찾아내서 크롤링.py" Process finished with exit code 0

머가 문제인건가요???


웹-크롤링 python

Câu trả lời 4

0

bokchi

파이팅입니다~

0

irunspal

감사합니다.

기초가부족한 상태라

기초를 잘 다져서 따라해보겠습니다

0

bokchi

코드를 약간 수정했습니다 여기서부터 한번 시작해보실래요?

0

bokchi

import requests
from bs4 import BeautifulSoup
req = requests.get('https://www.donga.com/news/Entertainment/List?p=1&prod=news&ymd=&m=')
soup = BeautifulSoup(req.text, 'html.parser')

print(soup.select("#content > div.page > a"))

for i in soup.select("#content > div.page > a") :
print("http://www.donga.com/news/List/Enter/" + i['href'])

여태까지 발견한 이슈들 공유드립니다.

0

3

0

기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?

0

3

0

전처리 train() test([ ])

0

8

2

작업형 1 배경지식 질문

0

10

2

옳게 풀은건지 질문드립니다!

0

9

1

roc_auc_score

0

12

1

재귀함수 연산법

0

8

1

추가질문 합니다

0

12

1

시험환경 구름

0

12

1

2유형 질문드려요

0

9

1

안녕하세요 파이썬 관련 문의드립니다

0

283

1

개발자님 도와주세요

0

217

1

질문입니다

0

253

3

크롬드라이버 설치

0

270

1

크롬드라이버 설치질문

0

212

1

브라우저가 안나와요

0

234

1

에디터와 모듈 관련

0

207

1

여러 페이지 크롤링

0

278

3

패키지 설치 방법 알려주세요

0

408

3

셀레니움 설치 관련

0

256

1

12페이지 이후 print

0

206

3

파이참설치안하고 아나콘다의 주피터 노트북으로 강의내용 따라가도되나요~?

0

246

3

chromedriver 라이브러리

2

325

3

다음 실시간 검색어 클래스 추출 불가

1

284

1