인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

인프런 커뮤니티 질문&답변

한병식님의 프로필 이미지
한병식

작성한 질문수

[신규 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)

구글 큰 이미지 클롤링에서 자바스크립트로 변경해도 403 : Forbidden Error 발생 합니다.

작성

·

1.1K

0

for i, img in enumerate(imgs, 1):

    # 이미지를 클릭해서 큰 사이즈를 찾아요

    # 클릭하다 보면 element click intercept error가 나요

    # javascript로  클릭을 직접하도록 만들어 준다.

    #img.click()  # selenium 으로 클릭

    browser.execute_script("arguments[0].click();", img)

    time.sleep(1)

~~~ 에러 내용 ~~~

Traceback (most recent call last):

  File "c:/cra/06_구글_이미지_크롤링/02_큰이미지다운로드.py", line 67, in <module>

    urllib.request.urlretrieve(img_src, f'06_구글_이미지_크롤링\{keyword}\{i}')

  File "C:\python37\lib\urllib\request.py", line 247, in urlretrieve

    with contextlib.closing(urlopen(url, data)) as fp:

  File "C:\python37\lib\urllib\request.py", line 222, in urlopen

    return opener.open(url, data, timeout)

  File "C:\python37\lib\urllib\request.py", line 531, in open

    response = meth(req, response)

  File "C:\python37\lib\urllib\request.py", line 641, in http_response

    'http', request, response, code, msg, hdrs)

  File "C:\python37\lib\urllib\request.py", line 569, in error

    return self._call_chain(*args)

  File "C:\python37\lib\urllib\request.py", line 503, in _call_chain

    result = func(*args)

  File "C:\python37\lib\urllib\request.py", line 649, in http_error_default

    raise HTTPError(req.full_url, code, msg, hdrs, fp)

urllib.error.HTTPError: HTTP Error 403: Forbidden

답변 1

0

스타트코딩님의 프로필 이미지
스타트코딩
지식공유자

안녕하세요.

코딩을 진짜 쉽게 알려주는 크리에이터 스타트코딩입니다.

 

우선 제가 작성한 코드를 보내 드릴테니

테스트 해보시고 같은 현상이 발생하는 지 여부를 알려주세요~!ㅎㅎ

 

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
import os
import urllib.request

if not os.path.exists('06_구글_이미지_크롤링/파이썬'):
    os.mkdir('06_구글_이미지_크롤링/파이썬')

url = "https://www.google.com/search?q=%ED%8C%8C%EC%9D%B4%EC%8D%AC&sxsrf=AOaemvIse43Jtw8xljyc6UWOAF0q9Z5hlw:1641714758371&source=lnms&tbm=isch&sa=X&ved=2ahUKEwi2yfqHmKT1AhWPzmEKHY_sAloQ_AUoAXoECAIQAw&cshid=1641714809694662&biw=1366&bih=625&dpr=1"
browser = webdriver.Chrome("C:/chromedriver.exe")
browser.implicitly_wait(10)
browser.maximize_window()
browser.get(url)

# 무한 스크롤 처리
# 스크롤 전 높이
before_h = browser.execute_script("return window.scrollY")

# 무한 스크롤
while True:
    # 맨 아래로 스크롤을 내린다.
    browser.find_element_by_css_selector("body").send_keys(Keys.END)

    # 스크롤 사이 페이지 로딩 시간
    time.sleep(1)

    # 스크롤 후 높이
    after_h = browser.execute_script("return window.scrollY")
   
    if after_h == before_h:
        break
    before_h = after_h

# 썸네일 이미지 태그 추출
imgs = browser.find_elements_by_css_selector(".rg_i.Q4LuWd")

for i, img in enumerate(imgs, 1):
    # 이미지를 클릭해서 큰 사이즈를 찾아요
    # 클릭하다보면 element click intercepted 에러가 나요
    # javascript 로 클릭을 직접 하도록 만들어주면 됩니다.
    browser.execute_script("arguments[0].click();", img)
    time.sleep(1)

    # 큰 이미지 주소 추출
    if i == 1:
        target = browser.find_elements_by_css_selector("img.n3VNCb")[0]
    else:
        target = browser.find_elements_by_css_selector("img.n3VNCb")[1]

    img_src = target.get_attribute('src')

    # 이미지 다운로드
    # 크롤링 하다보면 HTTP Error 403: Forbidden 에러가 납니다.
    opener = urllib.request.build_opener()
    opener.addheaders = [('User-Agent', 'Mozila/5.0')]
    urllib.request.install_opener(opener)
    urllib.request.urlretrieve(img_src, f'06_구글_이미지_크롤링/파이썬/{i}.jpg')
한병식님의 프로필 이미지
한병식

작성한 질문수

질문하기