inflearn logo
강의

講義

知識共有

[新規改訂版] これが本当のクローリングだ - 実戦編 (人工知能収益化)

이미지 크롤링시 질문있어요!!

504

ilikesoup6745

投稿した質問数 3

1

이것이 진짜 크롤링이다 - 실전편

네이버 이미지 주소추출 수업을 듣고있다가 질문드려요!

 

이미지의 URL을 크롤링 하던 중 약 550개 이미지 URL 크롤링 중 350개 정도는 

아래와 같이 URL이 크롤링 되더라구요 .. 그러면서 이미지 다운도 안되구요.. 뭐가 문제일까요 .ㅠ 도와주세요!

data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7

 

== 소스 코드==

from webbrowser import BackgroundBrowser
from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

options = webdriver.ChromeOptions()
options.add_experimental_option("excludeSwitches", ["enable-logging"])

url = "https://search.naver.com/search.naver?where=image&sm=tab_jum&query=%EB%A7%A5%EB%B6%81"
browser = webdriver.Chrome("C:/chromedriver.exe")
browser.implicitly_wait(10)
browser.maximize_window()
browser.get(url)
 
# 무한 스크롤 처리

# 스크롤 전 높이
before_h = browser.execute_script("return window.scrollY")

# 무한 스크롤
while True:
    #맨 아래로 스크롤을 내린다.
    # browser.find_element(By.CSS_SELECTOR,"body").send_keys(Keys.END)
    browser.find_element_by_css_selector("body").send_keys(Keys.END)

    # 스크롤 사이 페이지 로딩 시간
    time.sleep(3)

    # 스크롤 후 높이
    after_h = browser.execute_script("return window.scrollY")

    if after_h == before_h:
        break
    before_h = after_h

# 이미지 태그 추출
imgs = browser.find_elements_by_css_selector("a.link_thumb._imageBox._infoBox>._image._listImage")

for i, img in enumerate (imgs,1) :
    img_src = img.get_attribute("src")
    print(i, img_src)

 

이것이진짜크롤링이다-실전편 python 웹-크롤링

回答 1

0

startcoding

이미지를 다운받아오지 못해서 발생하는현상입니다.

컴퓨터마다 속도, 인터넷속도가 달라서 테스트환경마다 다를 겁니다.

 

 

스크롤 시 time.sleep을 더 올려서 기다려주거나,

좀 더 정확한 방법은 이미지를 다운로드 할 때, 그 이미지로 화면 focus를 이동시키는 방법이 있습니다.

 

 

셀레니움 환경설정 오류

0

43

2

네이버 로그인 관련

0

236

2

안녕하세요 셀레니움에 대해서 질문

0

82

1

크롤링 연습사이트 문의

0

93

2

선택자 질문

0

71

2

'특정 요소가 나타날 때까지 스크롤' 부분 에러

0

76

2

자동 로그인 질문

0

84

2

44강 제목, 링크

0

100

1

원하는 값이 없을 때

0

88

2

크롤링한 링크가 엑셀로 들어가면 작동이 안되요

0

224

2

셀레니움 PDF자료는 받을 수 있나요

0

100

2

글목록 추출하기

0

96

2

메일 자동화 로그인 중복방지문자해결 오류 및 명시적 대기 질문

0

86

2

강의 노트가 어디에 있는건가요?

0

80

2

강의 커리큘럼 질문

0

95

1

조건문 else 사용하지 않는 이유

0

73

2

셀레니움으로 접근할 수 없는 경우

0

95

2

웹페이지 변경

0

70

2

자바스크립트로 태그 선택 시 질문입니다.

1

62

2

수료증은 어떻게 받나요?

0

116

2

class명을 활용하여 선택자를 만들지 않는 경우..?

0

59

2

드라이버가 안 열려요

0

79

2

이거 해결방법 아시는 분?

0

121

2

네이버 지식인 크롤링..

0

200

2