inflearn logo
강의

Course

Instructor

The Most Powerful Crawling Technology Today: Mastering Scrapy and Selenium

scrapy 동적 웹페이지

503

empty -

1 asked

0

안녕하세요 강의 정말 잘 보고 있습니다 ㅎㅎ

내용을 쉽게 설명해주셔서 바로바로 이해하면서 열심히 공부하고 있습니다.

다름이 아니라 scrapy에 selenium을 응용하여 동적 웹페이지를 크롤링 하려하는데

가이드 라인이 있으면 좋을거 같아서 이렇게 질문드려봅니다.

selenium에서의 response를 scrapy에서 이용 할 수 있지 않을까 생각하는데

scrapy 에서 selenium을 이용하여 동적웹페이지를 크롤링 하는 정말 간단한 소스 하나만 예제로 볼 수 있을까요

scrapy selenium 웹-크롤링

Answer 2

0

empty -

감사합니다!!

0

funcoding

안녕하세요.

scrapy에서는 동적웹페이지라도 가능한 정적웹페이지처럼 방법을 찾아서, 크롤링하긴 하는데요. 찾아보니 다음과 같은 별도 추가 라이브러리가 있네요. 다음 내용과 링크를 참고하시면, 좋을 것 같습니다. 이정도라도 조금이나마 도움이 되시면 좋을 것 같습니다. 감사합니다.

https://github.com/clemfromspace/scrapy-selenium

우선 위 링크에 기재된 대로, 몇가지 설정을 해준 후에, 

scrapy 프로젝트에서, request 대신에, SeleniumRequest를 사용하고,

from scrapy_selenium import SeleniumRequest

yield SeleniumRequest(url=url, callback=self.parse_result)

response.request.meta['driver'] 를 통해 selenium driver를 로드해서, 동적웹페이지도 크롤링이 가능한 것으로 보입니다.

def parse_result(self, response):
    print(response.request.meta['driver'].title)

코딩을 잘 따라 한 것 같은데 오류가 발생하는 것 같습니다

0

640

1

scrapy를 jupyter 환경에서 할 수 있나요

0

371

1

[실전 크롤링: scrapy 크롤링 팁] 질문있습니다.

0

325

1

[실전 크롤링: 지마켓 크롤링하며, scrapy 실전 활용법 익히기1] 5분50초쯤 질문

0

231

1

[강력/최신 크롤링 기술: Scrapy 로 지마켓 크롤링하기1] 관련 질문

0

285

1

xml을 parsing할때 <을 &lt; 로 인식합니다.

0

340

1

pipelines.py에서 process_item내에서 print문이 작동을 하지 않네요 ㅠ

0

295

3

PhantomJS 문의

0

305

1

selenium 문의

0

337

1

브라우저 제어해서 크롤링하기 - 처음강의 마지막부분 문의

0

3013

1

on error 해결 방법 질문

0

365

1

[팁] 윈도우 cmd 커맨드

0

354

1

[팁]Chrome User Agent 아는법

0

334

1

실전 크롤링: 브라우저를 제어해서 트위터 사이트 로그인 하기 질문

0

258

1

동영상 강의 만드실 때 사용한 툴을 알려주실 수 있을까요?

0

248

1

CSS Selector 에서 질문이 있습니다.

0

445

2

pip install scrapy 오류

0

495

1

셀레니움 실행불가

0

1590

1

실전 크롤링: XPATH와 Selenium 활용해서 페이스북 로그인 하기 에서 질문이 있습니다.

0

231

1

언제 get_text()를 사용하고 또 언제 .text를 사용하나요?

0

296

1

강의교안자료 받을수있을까요?

0

271

1

[강의 9:27관련 질문] price, title 열 위치

0

161

1

div에 있는 클래스가 2개이면 어떻게 하나요?

0

370

1

css 셀렉터에 대해 질문이 있습니다.

0

154

1