inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[신규 개정판] 이것이 진짜 크롤링이다 - 기본편

질문드립니다^^

219

강현명

작성한 질문수 1

0

아래 화면처럼 했는대

데이터를 가져오는 건 1,10,20,30 여기서 어떠한 부분이 잘못된것일까요?

 

import requests
from bs4 import BeautifulSoup
import pyautogui

keyword = pyautogui.prompt('검색어를 입력하세요')
lastpage = pyautogui.prompt('마지막 페이지 번호')
pageNum=1
for i in range(1, int(lastpage) * 10, 10) :
    print(f"{pageNum}페이지 ==============================")
    response = requests.get(f"https://search.naver.com/search.naver?sm=tab_hty.top&where=news&query={keyword}&start={lastpage}")
    html = response.text
    soup = BeautifulSoup(html,'html.parser')
    links = soup.select('.news_tit')
    for link in links :
        title = link.text
        url=link.attrs['href']
        print(title,url)
        pageNum = pageNum + 1

크롤링 웹-크롤링 python

답변 1

1

스타트코딩

잘 동작하는줄 알고 봤는데~

돌려보니까 이상한 점이 하나 있네요ㅎㅎ

 

마지막 줄에

pageNum = pageNum + 1 부분을 안쪽으로 들여쓰기 해주세요 ㅎㅎ

 

0

강현명

안쪽으로 들여쓰기한거와 안한게 차이가 있나요? 

0

스타트코딩

지금 예제는 2중 for문으로 되어 있어요.

 

pageNum = pageNum + 1을

안쪽으로 들여쓰기를 하지않으면

 

1페이지를 크롤링 할때 

안쪽 for문으로 인해 pageNum 이 10이 증가해 버립니다. 

Live server 를 이용 해보고 싶은데 확장메뉴 설치가 막혀 있어요

0

64

2

'팀 단위 AI 업무 혁신' 자문 관련하여 문의드리고자 합니다. (연락처 요청)

0

39

1

import requests from bs4 import BeatifulSoup 이 단계에서 안 되네요

0

77

2

requests 관련 질문

1

138

2

설치 관련

0

132

2

vs code 결과출력이 안됩니다

0

143

1

크롤링 관련 질문입니다

0

210

2

word wrap 체크 후에도 콘솔 한줄로 출력되는현상

0

190

1

주피터에서 pip오류가 계속납니다

0

1084

3

강의 "requests, Beautifulsoup4 사용법 빠르게 알아보기"에서 질문이있습니다.

0

172

2

네이버쇼핑 검색창 넘어가기전 팝업창이 안사라져요

0

366

1

html주소를 다른 컴터에서도 접속하기

0

243

2

pandas 설치하는데 오류가 나서요

0

2709

1

실행오류

0

215

1

네이버쇼핑 무한스크롤 안되시는분들 모바일네이버로 실습해보세요

0

263

1

뉴스 페이지에 페이지 번호가 없는데 어떻게 가져오나요?

0

233

2

네이버 쇼핑에 팝업창이 뜨기 시작했어요 도와주세요 ㅠㅠ

0

724

3

셀레니움 실습 시 창이 자동 차단되면서 꺼집니다.

0

665

2

낮은 가격순을 클릭하는 문을 추가하고싶습니다.

0

305

2

pip는 내부 또는 외부명령 ,실행할 수 있는 프로그램

0

3393

2

이런오류는 어떤 오류인가요

0

661

1

창이 두개떠요/쇼핑검색도 안되요 ㅜ

0

334

2

약간 변태(?)같지만 해당 코드를 깔끔하게 함수로 리팩토링해보았습니다

0

338

2

과제 답안을 보지않고 스스로 구글링해서 만든 웹 크롤링 프로그램(10페이지 단위) 코드입니다.

0

760

2