inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

현존 최강 크롤링 기술: Scrapy와 Selenium 정복

질문드립니다!

224

MINSEON KIM

작성한 질문수 10

0

DEBUG: Filtered duplicate request: <GET http://corners.gmarket.co.kr/Bestsellers> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)

마지막 G마켓 크롤링 예재에서 세부카테고리(subcategory)를 크롤링할때 동일한 for문을 2번 작성하여 위와 같은 duplicate오류가 발생하는것을 확인했습니다. 이에, request 안에 dont_filter = True처리를 해주어서 처리를 하였더니 정상적으로 출력이 되었습니다. 

혹시 선생님께서는 DUPEFILTER_DEBUG의 default값을 FALSE로 설정해 놓으셔서 별도로 코드 작성없이 정상적으로 실행이 되신건가요???

또한 혹시 만약에 INFINITE LOOP안에서 크롤링을 해야하는 경우는 위와 같이 duplicate처리를 어떻게 하면 좋을까요???

scrapy selenium 웹-크롤링

답변 1

0

잔재미코딩 DaveLee

안녕하세요.

몇가지 테스트를 해봤는데, 저는 관련된 에러는 안나는 것으로 보여요. 제가 강의에서 작성한 코드를 그대로 실행하신 것인지, 추가로 어떤 코드를 넣으신 것인지 궁금해요.

기본적으로 강의 중간에 설명드린대로 settings.py 파일에 다음과 같은 셋팅값을 넣으면, duplicate request 도 처리를 할 텐데요.

DUPEFILTER_CLASS = 'scrapy.dupefilters.BaseDupeFilter'

말씀하신대로 request 안에 dont_filter = True 으로 하셔도 됩니다. 더 괜찮은 방법이기도 하다는데, 특별한 차이는 느낄 수 없어서, 간편하게 위의 설정으로 사용하고 있습니다.

감사합니다.

코딩을 잘 따라 한 것 같은데 오류가 발생하는 것 같습니다

0

626

1

scrapy를 jupyter 환경에서 할 수 있나요

0

360

1

[실전 크롤링: scrapy 크롤링 팁] 질문있습니다.

0

313

1

[실전 크롤링: 지마켓 크롤링하며, scrapy 실전 활용법 익히기1] 5분50초쯤 질문

0

221

1

[강력/최신 크롤링 기술: Scrapy 로 지마켓 크롤링하기1] 관련 질문

0

279

1

xml을 parsing할때 <을 &lt; 로 인식합니다.

0

335

1

pipelines.py에서 process_item내에서 print문이 작동을 하지 않네요 ㅠ

0

292

3

PhantomJS 문의

0

294

1

selenium 문의

0

329

1

브라우저 제어해서 크롤링하기 - 처음강의 마지막부분 문의

0

3004

1

on error 해결 방법 질문

0

356

1

[팁] 윈도우 cmd 커맨드

0

347

1

[팁]Chrome User Agent 아는법

0

328

1

실전 크롤링: 브라우저를 제어해서 트위터 사이트 로그인 하기 질문

0

254

1

동영상 강의 만드실 때 사용한 툴을 알려주실 수 있을까요?

0

237

1

CSS Selector 에서 질문이 있습니다.

0

435

2

pip install scrapy 오류

0

484

1

셀레니움 실행불가

0

1578

1

실전 크롤링: XPATH와 Selenium 활용해서 페이스북 로그인 하기 에서 질문이 있습니다.

0

227

1

언제 get_text()를 사용하고 또 언제 .text를 사용하나요?

0

287

1

강의교안자료 받을수있을까요?

0

263

1

[강의 9:27관련 질문] price, title 열 위치

0

160

1

div에 있는 클래스가 2개이면 어떻게 하나요?

0

368

1

css 셀렉터에 대해 질문이 있습니다.

0

147

1