웹사이트에서 크롤러의 행동을 규제하는 robots.txt에 관해 질문드립니다.
안녕하십니까 선생님. 강의에서 다뤄주신 크롤링 기법을 사용해 제 개인 프로젝트에 활용하려고 하는 통계학과 대학원생입니다. 강의 외적인 질문이라 죄송스러운 마음이 앞서지만, 선생님같은 식견을 가지신 분이시라면 답을 알고 계실 것 같아 양해를 부탁드리며 질문 올리겠습니다.
보다 구체적으로, Daum뉴스에서 크롤링한 기사들의 원문을 데이터로 사용하는 모델을 만들어 이를 적용하고 그 결과를 제 깃헙 페이지에 공개하려고 했습니다.
하지만 프로젝트를 진행하는 과정에서 robots.txt의 존재를 알게 되었고, 실제로 news.daum.net/robots.txt를 확인해 봤을 때 해당 사이트에서 모든 크롤링 시도를 금지하고 있음을 확인할 수 있었습니다(User-agent: * Disallow : /).
저는 악의나 영리 목적의 의도가 없고, 심지어는 request와 request 사이에 지연을 줘서 서버에 무리가 가지 않도록 할 의향도 있습니다. 그럼에도 불구하고 robots.txt에 저렇게 지정되어 있으면 어떤 방식으로든 크롤링을 금지하며 이를 어길 시 어떤 방식으로든 책임을 물을 수 있다는 의미인지 궁금합니다.
마지막으로, 좋은 강의 항상 너무 감사하다는 말씀 드리고 싶습니다. 파이썬 기초는 이미 알고 있어서 사실 크롤링 부분만을 위해 강의를 수강하긴 했습니다만, 모든 내용을 잘 이해할 수 있었습니다. 이에 더해 파이썬 중급 강의도 거의 마쳐가는데, decorator나 generator의 원리를 확실히 알게된 것 같아 너무 유익하고 좋았습니다. 둘 다 곧 마무리하고 수강평 남기도록 하겠습니다!
이상입니다. 감사합니다.
답변 1
0
안녕하세요. 강의에 대해 도움이 되셨다고 생각해주시니, 정말 다행이네요.
robots.txt 는 구글과 같이 검색엔진이 해당 사이트 정보를 가져올 때, 어디까지 허용하겠느냐를 설정하는 것이 주 목적이라서요. 법적인 책임과는 관련이 없습니다. 저작권등 법적인 이슈는 이와는 별개이고요. 보통 사이트를 크롤링해서, 그대로 사용한다면 또는 한 문장 전체, 이미지라도 그대로 사용한다면, 문제가 될 수 있습니다. 특히 해당 데이터를 자신의 사이트등에 오픈한다면 큰 문제가 될 수 있으므로, 이런 부분은 참고용, 분석용으로만 개인적으로 사용하는 것이 가장 좋다고 생각합니다.
감사합니다.
65강 소리
0
23
1
섹션 5 CSS selector사용해서 클로링하기2의 커리큘럼 일정 부재?
0
24
2
크롤링, 영상을 따라해도 제미나에게 물어봐도 안되요
0
39
1
정규표현식 및 여러 코드 꼭 외워야 하나요?
0
46
1
리스트 함수형도 정수 데이터 받을 수 있나요?
0
51
1
크롤링 관련 질문
0
70
1
문제 답이 없는 버전은 없나요?
0
81
1
requests, BeautifulSoup 임포트 부분에 대해 문의드립니다.
0
89
1
업데이트 강의
0
107
2
선생님 강의중에서 sqlite3 강의를 제공한 강의가 있나요?
0
130
2
연습용 예제 파일
0
79
1
lxml 관련 오류
0
112
1
SAVE Request 창 띄우는 법
0
97
1
포스트맨 사용법이 바뀌어서 강의를 따라가지 못하겠습니다. 2
0
85
1
포스트맨 사용법이 바뀌어서 강의를 따라가지 못하겠습니다.
0
103
1
예제 2, 4, 6에 대한 풀이 방식 질문.
0
95
1
문제 파일
0
83
1
pdf 파일 내 코드 복붙시 공백
0
300
1
데이터 저장 강좌 문의 건
0
101
1
" " 와 ' '의 차이를 알고 싶습니다
0
247
1
Exercise 22. 문자열 다루기 (strip)
0
143
1
list함수로 리스트 선언하면 실패하는데 이유는 무엇입니까?
0
193
1
셀 삽입후 바로 기입이 가능합니까?
0
146
2
주피터 노트북 마우스 스크롤? 오류
0
1564
2





