웹사이트에서 크롤러의 행동을 규제하는 robots.txt에 관해 질문드립니다.

Question

안녕하십니까 선생님. 강의에서 다뤄주신 크롤링 기법을 사용해 제 개인 프로젝트에 활용하려고 하는 통계학과 대학원생입니다. 강의 외적인 질문이라 죄송스러운 마음이 앞서지만, 선생님같은 식견을 가지신 분이시라면 답을 알고 계실 것 같아 양해를 부탁드리며 질문 올리겠습니다.

보다 구체적으로, Daum뉴스에서 크롤링한 기사들의 원문을 데이터로 사용하는 모델을 만들어 이를 적용하고 그 결과를 제 깃헙 페이지에 공개하려고 했습니다.

하지만 프로젝트를 진행하는 과정에서 robots.txt의 존재를 알게 되었고, 실제로 news.daum.net/robots.txt를 확인해 봤을 때 해당 사이트에서 모든 크롤링 시도를 금지하고 있음을 확인할 수 있었습니다(User-agent: * Disallow : /).

저는 악의나 영리 목적의 의도가 없고, 심지어는 request와 request 사이에 지연을 줘서 서버에 무리가 가지 않도록 할 의향도 있습니다. 그럼에도 불구하고 robots.txt에 저렇게 지정되어 있으면 어떤 방식으로든 크롤링을 금지하며 이를 어길 시 어떤 방식으로든 책임을 물을 수 있다는 의미인지 궁금합니다.

마지막으로, 좋은 강의 항상 너무 감사하다는 말씀 드리고 싶습니다. 파이썬 기초는 이미 알고 있어서 사실 크롤링 부분만을 위해 강의를 수강하긴 했습니다만, 모든 내용을 잘 이해할 수 있었습니다. 이에 더해 파이썬 중급 강의도 거의 마쳐가는데, decorator나 generator의 원리를 확실히 알게된 것 같아 너무 유익하고 좋았습니다. 둘 다 곧 마무리하고 수강평 남기도록 하겠습니다!

이상입니다. 감사합니다.

Answer

안녕하세요. 강의에 대해 도움이 되셨다고 생각해주시니, 정말 다행이네요.

robots.txt 는 구글과 같이 검색엔진이 해당 사이트 정보를 가져올 때, 어디까지 허용하겠느냐를 설정하는 것이 주 목적이라서요. 법적인 책임과는 관련이 없습니다. 저작권등 법적인 이슈는 이와는 별개이고요. 보통 사이트를 크롤링해서, 그대로 사용한다면 또는 한 문장 전체, 이미지라도 그대로 사용한다면, 문제가 될 수 있습니다. 특히 해당 데이터를 자신의 사이트등에 오픈한다면 큰 문제가 될 수 있으므로, 이런 부분은 참고용, 분석용으로만 개인적으로 사용하는 것이 가장 좋다고 생각합니다.

감사합니다.

sunsik kim

웹사이트에서 크롤러의 행동을 규제하는 robots.txt에 관해 질문드립니다.

이 글과 비슷한 Q&A

ConnectionError

쥬피터 노트북 사용 방법

Feature Scaling 강의 질문 있습니다!

heatmap에서 numeric_only=True