구글 큰 이미지 클롤링에서 자바스크립트로 변경해도 403 : Forbidden Error 발생 합니다.

Question

for i, img in enumerate(imgs, 1): # 이미지를 클릭해서 큰 사이즈를 찾아요 # 클릭하다 보면 element click intercept error가 나요 # javascript로 클릭을 직접하도록 만들어 준다. #img.click() # selenium 으로 클릭 browser.execute_script("arguments[0].click();", img) time.sleep(1) ~~~ 에러 내용 ~~~ Traceback (most recent call last): File "c:/cra/06_구글_이미지_크롤링/02_큰이미지다운로드.py", line 67, in <module> urllib.request.urlretrieve(img_src, f'06_구글_이미지_크롤링\{keyword}\{i}') File "C:\python37\lib\urllib\request.py", line 247, in urlretrieve with contextlib.closing(urlopen(url, data)) as fp: File "C:\python37\lib\urllib\request.py", line 222, in urlopen return opener.open(url, data, timeout) File "C:\python37\lib\urllib\request.py", line 531, in open response = meth(req, response) File "C:\python37\lib\urllib\request.py", line 641, in http_response 'http', request, response, code, msg, hdrs) File "C:\python37\lib\urllib\request.py", line 569, in error return self._call_chain(*args) File "C:\python37\lib\urllib\request.py", line 503, in _call_chain result = func(*args) File "C:\python37\lib\urllib\request.py", line 649, in http_error_default raise HTTPError(req.full_url, code, msg, hdrs, fp) urllib.error.HTTPError: HTTP Error 403: Forbidden

스타트코딩 · Answer

안녕하세요. 코딩을 진짜 쉽게 알려주는 크리에이터 스타트코딩입니다. 우선 제가 작성한 코드를 보내 드릴테니 테스트 해보시고 같은 현상이 발생하는 지 여부를 알려주세요~!ㅎㅎ from selenium import webdriver from selenium . webdriver . common . keys import Keys import time import os import urllib . request if not os . path . exists ( '06_구글_이미지_크롤링/파이썬' ): os . mkdir ( '06_구글_이미지_크롤링/파이썬' ) url = "https://www.google.com/search?q= %E D%8C%8C %E C%9D%B4 %E C%8D%AC&sxsrf=AOaemvIse43Jtw8xljyc6UWOAF0q9Z5hlw:1641714758371&source=lnms&tbm=isch&sa=X&ved=2ahUKEwi2yfqHmKT1AhWPzmEKHY_sAloQ_AUoAXoECAIQAw&cshid=1641714809694662&biw=1366&bih=625&dpr=1" browser = webdriver . Chrome ( "C:/chromedriver.exe" ) browser . implicitly_wait ( 10 ) browser . maximize_window () browser . get ( url ) # 무한 스크롤 처리 # 스크롤 전 높이 before_h = browser . execute_script ( "return window.scrollY" ) # 무한 스크롤 while True : # 맨 아래로 스크롤을 내린다. browser . find_element_by_css_selector ( "body" ). send_keys ( Keys . END ) # 스크롤 사이 페이지 로딩 시간 time . sleep ( 1 ) # 스크롤 후 높이 after_h = browser . execute_script ( "return window.scrollY" ) if after_h == before_h : break before_h = after_h # 썸네일 이미지 태그 추출 imgs = browser . find_elements_by_css_selector ( ".rg_i.Q4LuWd" ) for i , img in enumerate ( imgs , 1 ): # 이미지를 클릭해서 큰 사이즈를 찾아요 # 클릭하다보면 element click intercepted 에러가 나요 # javascript 로 클릭을 직접 하도록 만들어주면 됩니다. browser . execute_script ( "arguments[0].click();" , img ) time . sleep ( 1 ) # 큰 이미지 주소 추출 if i == 1 : target = browser . find_elements_by_css_selector ( "img.n3VNCb" )[ 0 ] else : target = browser . find_elements_by_css_selector ( "img.n3VNCb" )[ 1 ] img_src = target . get_attribute ( 'src' ) # 이미지 다운로드 # 크롤링 하다보면 HTTP Error 403: Forbidden 에러가 납니다. opener = urllib . request . build_opener () opener . addheaders = [( 'User-Agent' , 'Mozila/5.0' )] urllib . request . install_opener ( opener ) urllib . request . urlretrieve ( img_src , f '06_구글_이미지_크롤링/파이썬/ { i } .jpg' )