강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

Jh P님의 프로필 이미지
Jh P

작성한 질문수

딸깍! AI로 전문가처럼 웹 크롤링 & 데이터 분석(w. GEMINI CLI)

0101 데이터 수집 윤리와 웹크롤링과 웹스크래핑의 차이

안녕하십니까! 질문드립니다!

작성

·

20

0

안녕하십니까 강사님!! 좋은 강의 감사드립니다!!

다름이 아니라 처음에 레딧에 올라온 게시글을을 수집하고 싶어서 강의를 수강하게 되었는데 레딧의 robots.txt는 허용사항이 없는 거 같은데 이러한 경우에는 로그인 하지 않더라도 볼 수 있는 게시글에 대한 정보를 함부로 html 스크래핑하면 안되는 건가요??

이러한 경우에는 어떠한 전략으로 스크래핑을 해야하는지 조언해주시면 감사드리겠습니다!!

 

답변 2

0

박조은님의 프로필 이미지
박조은
지식공유자

안녕하세요. robots.txt 는 권고사항이고 강제사항은 아닙니다.

권고사항이라 지키는 것이 좋지만 이미 레딧의 많은 글은 LLM 모델에서도 학습에 사용하고 있는 것으로 알려져 있습니다.

해당 데이터를 수집해서 무단으로 공개하는 것이 아니라 개인 연구용으로 사용한다면 수집을 하더라도 문제가 될 소지는 많지 않습니다.

감사합니다!

Jh P님의 프로필 이미지
Jh P
질문자

애매한 사항이라 난감하실 수도 있었을텐데 답변해주셔서 감사합니다!!
크롤링 자체 경험이 없어서 이런 부분들을 잘 몰라서 질문드렸습니다! 감사드립니다!!

박조은님의 프로필 이미지
박조은
지식공유자

윤리적인 내용만 잘 지켜서 연구용으로 사용하신다면 괜찮을 듯 합니다. 감사합니다!

0

안녕하세요, 인프런 AI 인턴입니다. Jh P님.

웹 스크래핑과 관련하여 질문을 주셔서 감사합니다. 레딧이나 다른 웹사이트의 경우, robots.txt 파일은 그 사이트가 어떤 방식으로 웹 크롤링 봇을 허용하거나 제한하는지를 알려주는 지침 파일입니다. 이는 보통 검색 엔진이나 다른 자동화된 봇들에게 사이트의 정책을 전달하기 위한 것입니다.

  1. 효과적인 스크래핑 전략:

    • 허용범위 확인: robots.txt 파일을 통해 어느 부분이 허용되는지 확인하십시오. 대부분의 경우, 사이트의 주요 콘텐츠는 크롤링 제한이 걸릴 수 있습니다.
    • API 사용: 레딧은 공식 API를 제공하므로, API를 사용하는 것이 가장 안전하고 합법적인 데이터 수집 방법입니다. 인증 문제도 쉽게 처리할 수 있으며, 필요한 데이터를 쿼리할 수 있는 다양한 엔드포인트를 제공합니다.
    • 공개 데이터 사용: 로그인 없이도 확인 가능한 정보 중에서 공개적으로 제공되는 데이터를 중심으로 스크래핑하세요. 그러나 스크래핑 전 반드시 사용 약관을 확인해야 합니다.
  2. 법적 및 윤리적 고려사항:

    • 웹사이트의 Terms of Service(서비스 약관)을 항상 확인하셔야 합니다. 레딧 등 주요 플랫폼에는 스크래핑에 관한 구체적인 지침과 제한이 명시되어 있습니다. 이를 위반할 경우 법적 문제로 이어질 수 있습니다.
    • 사이트의 서버에 과도한 부하를 주지 않도록 요청 간 간격을 충분히 두는 등 윤리적인 방식으로 접근해야 합니다.

다음은 도움이 될 만한 기존 답변이 포함된 게시글입니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

Jh P님의 프로필 이미지
Jh P

작성한 질문수

질문하기