inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

현존 최강 크롤링 기술: Scrapy와 Selenium 정복

실전 크롤링: 지마켓 크롤링하며, scrapy 실전 활용법 익히기5

filtered duplicate request 오류

371

김지윤

작성한 질문수 5

1

        #sub category

        for index, category_link in enumerate(category_links):

            yield scrapy.Request(url='http://corners.gmarket.co.kr'+category_link,callback=self.parse_subcategory,meta={'maincategory_name':category_names[index]})

        #main category

        for index, category_link in enumerate(category_links):

            yield scrapy.Request(url='http://corners.gmarket.co.kr'+category_link,callback=self.parse_items,meta={'maincategory_name':category_names[index]})

maincategory크롤링 부분만 실행했을 때는 잘 실행되는데 subcategory 크롤링 부분을 추가로 넣어서 실행시키면 scrapy.dupefilters가 뜨면서 no more dupelicates will be shown 이라는 문구가 뜨면서 아예 parse_subcategory함수로 넘어가지 않습니다. 구글링 해서 찾아보니 dont_filter = True를 Request 객체 안에 넣어주니 되긴 하던데 

왜 이런 현상이 발생 되는지 알 수 있을까요??

scrapy 웹-크롤링 selenium

답변 1

0

잔재미코딩 DaveLee

안녕하세요. 기본적으로 동일한 URL 이 포함되어 있는 request 를 1회 이상 못하도록 설정되어 있어서 그렇습니다.

 이 부분에 대해서는 프로젝트 코드와 영상에서 다음 설정을 settings 쪽에서 다음 설정을 통해, 1회 이상 request 를 할 수 있도록 만드는 부분에 대해 설명을 드린 것 같습니다.

DUPEFILTER_CLASS = 'scrapy.dupefilters.BaseDupeFilter'

추가로, 추후부터는 다음 공지사항을 확인하셔서, 질문하실 때 가능하다면, 어느 챕터 강의의 최소 몇 분 정도의 영상을 꼭좀 알려주시면 좀더 맥락을 이해하고 답변드리겠습니다.  감사합니다.~

-----------

안녕하세요. 잔재미코딩 Dave Lee 입니다.

다음이 아니라, 질문시 한가지 꼭 확인부탁드리고자 공유드립니다.

질문하실 때 가능하다면, 어느 챕터 강의의 최소 몇 분 정도의 영상을 꼭좀 알려주시면 좋겠어서요.

제가 모든 영상을 분단위로 기억하기는 어려운데요.

이런 정보가 없는 질문에 대해 답변을 할 때는, 답변에 들이는 시간보다, 어떤 맥락에서 어느 영상의 어떤 코드에서 질문을 하시는 것인지를 찾는데 훨씬 시간이 많이 듭니다. 

그러다보니, 더 설명을 잘해드리기 어려울 때도 많거든요.

그래서, 꼭 좀 질문하실 때 가능하다면, 

어느 챕터 강의의 최소 몇 분 정도의 영상을 꼭좀 알려주시면 감사하겠습니다.

감사합니다.

코딩을 잘 따라 한 것 같은데 오류가 발생하는 것 같습니다

0

626

1

scrapy를 jupyter 환경에서 할 수 있나요

0

360

1

[실전 크롤링: scrapy 크롤링 팁] 질문있습니다.

0

313

1

[실전 크롤링: 지마켓 크롤링하며, scrapy 실전 활용법 익히기1] 5분50초쯤 질문

0

221

1

[강력/최신 크롤링 기술: Scrapy 로 지마켓 크롤링하기1] 관련 질문

0

279

1

xml을 parsing할때 <을 &lt; 로 인식합니다.

0

334

1

pipelines.py에서 process_item내에서 print문이 작동을 하지 않네요 ㅠ

0

292

3

PhantomJS 문의

0

294

1

selenium 문의

0

329

1

브라우저 제어해서 크롤링하기 - 처음강의 마지막부분 문의

0

3004

1

on error 해결 방법 질문

0

356

1

[팁] 윈도우 cmd 커맨드

0

347

1

[팁]Chrome User Agent 아는법

0

327

1

실전 크롤링: 브라우저를 제어해서 트위터 사이트 로그인 하기 질문

0

254

1

동영상 강의 만드실 때 사용한 툴을 알려주실 수 있을까요?

0

237

1

CSS Selector 에서 질문이 있습니다.

0

435

2

pip install scrapy 오류

0

483

1

셀레니움 실행불가

0

1578

1

실전 크롤링: XPATH와 Selenium 활용해서 페이스북 로그인 하기 에서 질문이 있습니다.

0

226

1

언제 get_text()를 사용하고 또 언제 .text를 사용하나요?

0

287

1

강의교안자료 받을수있을까요?

0

263

1

[강의 9:27관련 질문] price, title 열 위치

0

160

1

div에 있는 클래스가 2개이면 어떻게 하나요?

0

368

1

css 셀렉터에 대해 질문이 있습니다.

0

147

1