안녕하세요. scrapy도 강의 잘 듣고 있습니다.

Question

https://etherscan.io/accounts/label/upbit-hack

지금 크롤링 하려고 하는 사이트가 위 사이트인데요.

이와 관련된 강의 부분이 어디인지 몰라서 여쭙습니다 (scrapy, selenium 강의 포함해서)

해당 사이트에서 address, name tag, balance, txn count를 뽑아 내려고 해서 아래와 같이 작성을 했는데요.

1. 문제는 페이지에서 7개의 주소 밖에 뽑히지 않고 있어서 마우스 스크롤을 내리는 작업이 필요한지 의문이 듭니다

2. 그리고 해당 페이지를 크롤링이 끝나면
2,3,4,페이지 넘어 갈려고 하는데
화면에 있는 page 넘어가기를 클릭하거나 url 주소에 label/upbit-hack/2 이렇게 넣어야 될꺼 같은데 어떤 방식을 취해야 할까요?

from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.keys import Keys
import time, openpyxl

excel_file = openpyxl.Workbook()
excel_sheet = excel_file.active
excel_sheet.append(['주소', '수량', '레이블링'])
 

chromedriver = '/Users/chang-suk/Desktop/inflearn/scrapy_selenium/chromedriver'


options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('window-size=1920x1080')
options.add_argument("disable-gpu")
options.add_argument("User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4")
options.add_argument("lang=ko_KR")

driver = webdriver.Chrome(chromedriver, options=options)
driver.implicitly_wait(30)
driver.get('https://etherscan.io/accounts/label/binance')

arr = [];
body_title = driver.find_element_by_css_selector("tbody")

print(body_title.text)

driver.quit()

Answer

안녕하세요. ㅎㅎ 우선 강의에서 설명드린 예제를 기반으로 문의를 해주시면 감사하겠습니다.

각자 원하시는 크롤링 사이트가 다 다를텐데요. 각 사이트마다 크롤링이 되는지, 안되는지 알아보려면 결국 저도 해당 코드를 모두 작성해야 하는데요. 그렇게 지원해드리기에는 너무 시간이 부족하기도 하고요. 만약 그렇게 되면 평생 듣는 수업인데 평생동안 원하는 사이트는 모두 제가 크롤링을 해준다는 오해아닌 오해와 시간이 부족해서 늦게 되면 또 다른 불만아닌 불만까지도 생길 수 있어서요. 이 부분은 꼭좀 양해를 부탁드려요

마우스 스크롤은 다음과 같이 페이지도 참조하시면 좋을 것 같고요. 페이지를 이동한다면

https://m.blog.naver.com/kiddwannabe/221310063239

간단하게 각 페이지로 넘어갈 때마다 코드에 하단부에 순차적으로 해당 주소를 써주시면 됩니다.

감사합니다.

driver.get('label/upbit-hack/2 등등')

winter-breaker

안녕하세요. scrapy도 강의 잘 듣고 있습니다.

이 글과 비슷한 Q&A

Wilcoxon 검정 관련 질문

Claude 3 는 안되는 건가요?

4-2 작업형 1 모의문제2 문제4

카카오톡 채널 및 챗봇 생성하기 1분 30초에서 진행하고 있는데요