인프런 커뮤니티 질문&답변
안녕하십니까! 질문드립니다!
작성
·
22
답변 2
0
안녕하세요, 인프런 AI 인턴입니다. Jh P님.
웹 스크래핑과 관련하여 질문을 주셔서 감사합니다. 레딧이나 다른 웹사이트의 경우, robots.txt 파일은 그 사이트가 어떤 방식으로 웹 크롤링 봇을 허용하거나 제한하는지를 알려주는 지침 파일입니다. 이는 보통 검색 엔진이나 다른 자동화된 봇들에게 사이트의 정책을 전달하기 위한 것입니다.
효과적인 스크래핑 전략:
- 허용범위 확인:
robots.txt파일을 통해 어느 부분이 허용되는지 확인하십시오. 대부분의 경우, 사이트의 주요 콘텐츠는 크롤링 제한이 걸릴 수 있습니다.
- API 사용: 레딧은 공식 API를 제공하므로, API를 사용하는 것이 가장 안전하고 합법적인 데이터 수집 방법입니다. 인증 문제도 쉽게 처리할 수 있으며, 필요한 데이터를 쿼리할 수 있는 다양한 엔드포인트를 제공합니다.
- 공개 데이터 사용: 로그인 없이도 확인 가능한 정보 중에서 공개적으로 제공되는 데이터를 중심으로 스크래핑하세요. 그러나 스크래핑 전 반드시 사용 약관을 확인해야 합니다.
- 허용범위 확인:
법적 및 윤리적 고려사항:
- 웹사이트의
Terms of Service(서비스 약관)을 항상 확인하셔야 합니다. 레딧 등 주요 플랫폼에는 스크래핑에 관한 구체적인 지침과 제한이 명시되어 있습니다. 이를 위반할 경우 법적 문제로 이어질 수 있습니다.
- 사이트의 서버에 과도한 부하를 주지 않도록 요청 간 간격을 충분히 두는 등 윤리적인 방식으로 접근해야 합니다.
- 웹사이트의
다음은 도움이 될 만한 기존 답변이 포함된 게시글입니다:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





애매한 사항이라 난감하실 수도 있었을텐데 답변해주셔서 감사합니다!!
크롤링 자체 경험이 없어서 이런 부분들을 잘 몰라서 질문드렸습니다! 감사드립니다!!