강사님! 스크래피로 접속시 웹방화벽에서 Deny 메세지를 뿌리는데요....

Question

이럴 경우 스크랩핑 할 방법이 궁금합니다. ^^

크롤링 하려면 어떻게 하면 좋을까요?

kwansoonpark  ~/security_post

 scrapy shell 'https://edu.tta.or.kr/cop/bbs/selectBoardList.do\?bbsId\=BBSMSTR_000000000001'

[s] Available Scrapy objects:

[s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc)

[s] crawler <scrapy.crawler.Crawler object at 0x10f623590>

[s] item {}

[s] request <GET https://edu.tta.or.kr/cop/bbs/selectBoardList.do%5C?bbsId%5C=BBSMSTR_000000000001>

[s] response <200 http://www.tta.or.kr/deny_notice.jsp>

[s] settings <scrapy.settings.Settings object at 0x10f623090>

[s] spider <DefaultSpider 'default' at 0x110c13e90>

[s] Useful shortcuts:

[s] fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)

[s] fetch(req) Fetch a scrapy.Request and update local objects

[s] shelp() Shell help (print this help)

[s] view(response) View response in a browser

In [1]:

Answer

안녕하세요. 우선은 제 강의를 보시고, 꼭 도움이되셨으면 좋겠습니다.

요청하시는 부분이 수강자분께서 원하시는 크롤링 프로그램을 구현하는 코드를 만들어야하는 것인데요. 강좌에서 제시하는 크롤링 코드에 대해 문의를 주신다면 답변이 가능하지만, 각자 원하시는 크롤링 프로그램을 봐드리는 것은 무리가 있어서요. 왜냐하면, 크롤링은 웹페이지마다 다양한 케이스가 있어서요. 각자 원하시는 웹페이지를 위한 코드를 만든 후, 해당 부분에 어떤 부분이 문제가 있는지 또는 심지어 특정 케이스 추출을 위해 코드를 어떻게 작성할지를 알기 위해서는 결국 제가 직접 해당 웹페이지를 크롤링하는 프로그램을 작성해봐야 하거든요. 즉 크롤링 프로그램을 만들어드려야 하는데, 각자가 원하는 프로그램을 만들어드리기는 무리가 있어서요. 혹여나 시간을 들여서 프로그램까지 만들어서 답변드리게 되면, 오해 아닌 오해로, 모든 수강생분들이 이 강의를 들으면 각자가 원하는 크롤링 프로그램을 심지어 평생 요청하면 만들어준다는 오해까지 할수 있어서요. 이 부분은 꼭 좀 양해를 부탁드립니다.

그럼에도 불구하고 간략하게만 설명드리면, 위의 경우는 사이트에서 크롤링을 막는 경우라서요. selenium을 써서 크롤링을 시도해보신다면, 사이트에서 크롤링인지를 체크하는 여러 로직들을 피해갈 수 있지 않을까 생각합니다. 감사합니다.

kwansoon.kr

강사님! 스크래피로 접속시 웹방화벽에서 Deny 메세지를 뿌리는데요....

이 글과 비슷한 Q&A

선생님이랑 똑같이 적었는데 저는 왜 오류가 날까요?ㅠ

1강에서 localhost:4000 접속

이것도 로직이 바뀐 것 같아요.

환불요청 실습 진행 적용 불가