[공유] scrapy에서 중복 request 호출이 안되는 경우

안녕하세요.

scrapy에서 request를 여러번 할 경우, 첫번째 request 이외에는 호출이 안되는 부분에 대해 고민을 하시는 분들을 뵈어서,

다시 새소식으로 공유드립니다.

request시 URL이 중복된 경우, (예를 들어, www.daum.net/news1.html, www.daum.net/news2.html 은 앞의 URL 이 동일합니다.) 두 번째 요청은 처리를 하지 않습니다.

이 부분은 scrapy에서는 중복 URL에 대해, 디폴트로 중복 request를 안하도록 설정이 되어 있기 때문입니다.

settings.py 에서 다음 항목에 앞에 # 을 삭제해서, enable 하시면, 중복 URL에 대해서도 요청이 가능합니다.

DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter'

이 부분은 강좌 후반부에서 설명을 하였고, 강좌에서 첨부드린 scrapy 프로젝트 코드에서도 확인하실 수 있습니다.

감사합니다.

채널톡 아이콘