inflearn logo
강의

講義

知識共有

超簡易超スピードデータ収集(Pythonクロール)

urlリンクを見つけてクロールする

질문이요

255

Inhoo Song

投稿した質問数 5

2

import requests
from bs4 import BeautifulSoup
req = requests.get(
'https://www.donga.com/news/Entertainment/List?p=1&prod=news&ymd=&m=')
soup = BeautifulSoup(req.text
, 'html.parser')

for i in soup.select("#contents > div.page > a") :

req2 = requests.get(
"http://www.donga.com/news/List/Enter/" + i['href'])
soup2 = BeautifulSoup(req2.text
, 'html.parser')

for i in soup2.find_all("span", class_="tit") :
print(i.text)


C:\Users\karma\PycharmProjects\pychamwebcrawling\venv\Scripts\python.exe "C:/Users/karma/PycharmProjects/pychamwebcrawling/01_web_crawling_naver_test/url 링크 찾아내서 크롤링.py" Process finished with exit code 0

머가 문제인건가요???


웹-크롤링 python

回答 4

0

bokchi

파이팅입니다~

0

irunspal

감사합니다.

기초가부족한 상태라

기초를 잘 다져서 따라해보겠습니다

0

bokchi

코드를 약간 수정했습니다 여기서부터 한번 시작해보실래요?

0

bokchi

import requests
from bs4 import BeautifulSoup
req = requests.get('https://www.donga.com/news/Entertainment/List?p=1&prod=news&ymd=&m=')
soup = BeautifulSoup(req.text, 'html.parser')

print(soup.select("#content > div.page > a"))

for i in soup.select("#content > div.page > a") :
print("http://www.donga.com/news/List/Enter/" + i['href'])

전처리 관련질문

0

4

2

수강기간즘연장해주세요

0

4

1

작업형3 기출

0

6

1

유형2에서 데이터분할 생략 가능여부

0

7

1

9회 기출 유형3 질문

0

8

1

lgb 기초편

0

5

1

수업자료 문의

0

8

1

괄호 사용

0

9

1

작업형 2 데이터 전처리 질문

0

10

0

11회 기출 유형 작업형1 문제 3-1

0

9

0

안녕하세요 파이썬 관련 문의드립니다

0

283

1

개발자님 도와주세요

0

217

1

질문입니다

0

253

3

크롬드라이버 설치

0

270

1

크롬드라이버 설치질문

0

212

1

브라우저가 안나와요

0

234

1

에디터와 모듈 관련

0

207

1

여러 페이지 크롤링

0

278

3

패키지 설치 방법 알려주세요

0

408

3

셀레니움 설치 관련

0

256

1

12페이지 이후 print

0

206

3

파이참설치안하고 아나콘다의 주피터 노트북으로 강의내용 따라가도되나요~?

0

246

3

chromedriver 라이브러리

2

325

3

다음 실시간 검색어 클래스 추출 불가

1

284

1