웹크롤링이 상대방 서버에 부담이 될 때는 어떻게 하나요~?

Question

안녕하세요~ 기초부터 심화까지 강의 잘 듣고 있습니다. 좋은 강의 감사드립니다. 강의를 듣다 궁금한게 있어서요~ Scrapy는 정적인 페이지를 대용량 크롤링할 때 사용한다고 하셨는데, 이럴 때는 상대방 서버에 문제없이 크롤링해오는건가요??? 그리고 이건 이번 강의에 대한 문의는 아니고, 웹크롤링 기초부터 심화까지 다 들었는데 해결되지 않는 의문점이 있어서요. 기초강의에서 많은 데이터를 웹크롤링할 경우 상대방 서버에 부담을 줘서 문제가 될 수도 있다고 하셨는데요. 이럴 때 상대방 서버에 무리가 가지 않게 하면서 원하는만큼 웹크롤링을 할 수 있는 방법은 없을까요?? 한꺼번에 할 걸 시간을 좀 나눠서 크롤링하면 괜찮을까요??

funcoding · Answer

안녕하세요. 아 동일하게 scrapy 를 쓰든, selenium 을 쓰든, requests 를 쓰든, 해당 서버에 요청을 하는 것이라서요. 많은 요청을 한번에 대량으로 할 경우, 해당 서버에 부담이 많이 되는 것은 사실입니다. 데이터 수집을 위한 방안으로 획기적인 방안이긴 하지만, 서버에 부담을 주고, 저작권 이슈등이 있을 수도 있어서, 참 애매한 기술이기도 해요. 하지만 데이터 수집 기술이기도 하고, 단 몇줄의 코드로 그럴듯한 작업이 되는 듯 하기도 해서, 입문자분들이 프로그래밍과 데이터를 익히는데 유용한 예인 것도 맞습니다. 동일한 요청량을 서버에 부담이 안되게 하는 방법은 없긴 한데요. 아무래도 요청량이 동일하니까요. 다만, 말씀하신대로, 짧은 시간에 한꺼번에 대량의 요청을 하기 보다는, 여러 시간에 나누어서 소량의 요청을 조금씩 나눠서 하는 방안이 그나마 조금더 좋은 방안 같습니다. 강의가 도움이 되었으면 좋겠네요. 감사합니다.