inflearn logo
강의

Course

Instructor

Easy Python Advanced Crawling [Scrapy, Selenium, Headless Chrome]

Various uses of Scrapy: Crawling dynamic web pages by combining Selenium and Scrapy

웹크롤링이 상대방 서버에 부담이 될 때는 어떻게 하나요~?

680

white7720

2 asked

0

안녕하세요~

기초부터 심화까지 강의 잘 듣고 있습니다.

좋은 강의 감사드립니다.  강의를 듣다 궁금한게 있어서요~

Scrapy는 정적인 페이지를 대용량 크롤링할 때 사용한다고 하셨는데, 이럴 때는 상대방 서버에 문제없이 크롤링해오는건가요???

그리고 이건 이번 강의에 대한 문의는 아니고, 웹크롤링 기초부터 심화까지 다 들었는데 해결되지 않는 의문점이 있어서요.

기초강의에서 많은 데이터를 웹크롤링할 경우 상대방 서버에 부담을 줘서 문제가 될 수도 있다고 하셨는데요.  

이럴 때 상대방 서버에 무리가 가지 않게 하면서 원하는만큼 웹크롤링을 할 수 있는 방법은 없을까요??

한꺼번에 할 걸 시간을 좀 나눠서 크롤링하면 괜찮을까요??

 

selenium bigdata scrapy 웹-크롤링

Answer 1

2

funcoding

안녕하세요.

 

아 동일하게 scrapy 를 쓰든, selenium 을 쓰든, requests 를 쓰든, 해당 서버에 요청을 하는 것이라서요. 

많은 요청을 한번에 대량으로 할 경우, 해당 서버에 부담이 많이 되는 것은 사실입니다.

데이터 수집을 위한 방안으로 획기적인 방안이긴 하지만, 서버에 부담을 주고, 저작권 이슈등이 있을 수도 있어서,

참 애매한 기술이기도 해요. 하지만 데이터 수집 기술이기도 하고, 단 몇줄의 코드로 그럴듯한 작업이 되는 듯 하기도 해서, 입문자분들이 프로그래밍과 데이터를 익히는데 유용한 예인 것도 맞습니다.

 

동일한 요청량을 서버에 부담이 안되게 하는 방법은 없긴 한데요. 아무래도 요청량이 동일하니까요.

다만, 말씀하신대로, 짧은 시간에 한꺼번에 대량의 요청을 하기 보다는, 여러 시간에 나누어서 소량의 요청을 조금씩 나눠서 

하는 방안이 그나마 조금더 좋은 방안 같습니다.

 

강의가 도움이 되었으면 좋겠네요.

감사합니다.

 

 

[REST API] data의 교환방식 질문

1

663

1

headless chrome 오류 문의

0

1486

1

Selenium 처리 속도 관련 문의드립니다.

0

1950

1

동적 웹사이트에서 element가 선택되지 않는 문제에 관해 질문드립니다

0

686

1

webdriver manager

0

438

1

__init__() got an unexpected keyword argument 'service' 에러 질문드립니다.

1

11707

1

Jupiter NoteBook 파일과 PDF 파일은 어디서 다운로드 받을 수 있나요?

0

443

1

scrapy option질문

1

243

1

response.css 질문드립니다.

0

367

1

scrapy 크롤링 수행시 ffi.callback() 에러가 발생합니다

0

396

1

selenium으로 여러페이지 수집시 질문

0

380

1

연습6 모범 코드: 로그인 시나리오 해보기

0

269

1

셀레니움 문법 업그레이드 , find_element_by_tag_name 오류

3

2830

1

셀레니움 버전 변경으로 인한 코드 변경

0

1283

1

headless error

0

439

1

질문있습니다!

0

463

1

안녕하세요 선생님! 질문있습니다.

0

231

1

selenium&scrapy문의

0

279

1

아래분(phantele47)과 동일한 문제가 발생해서 문의드립니다.

0

908

6

ip 차단을 피하려면 어떻게 해야 하나요?

0

3353

2

start_urls = ['']가 제공해주신 것과 다르게 작동합니다.

1

278

2

json, data = json.loads(response.body_as_unicode()) 부분에 문제가 있는 것 같습니다.

0

596

3

scrapy 윈도우버전의 설명은 따로 없나요??

0

325

1

json 으로 저장이 안되네요

0

2129

1