inflearn logo
강의

講義

知識共有

カチッ!AIでプロのようにウェブスクレイピング&データ分析(w. GEMINI CLI)

0101 データ収集の倫理とウェブクローリング、ウェブスクレイピングの違い

안녕하십니까! 질문드립니다!

114

Jh P

投稿した質問数 16

0

안녕하십니까 강사님!! 좋은 강의 감사드립니다!!

다름이 아니라 처음에 레딧에 올라온 게시글을을 수집하고 싶어서 강의를 수강하게 되었는데 레딧의 robots.txt는 허용사항이 없는 거 같은데 이러한 경우에는 로그인 하지 않더라도 볼 수 있는 게시글에 대한 정보를 함부로 html 스크래핑하면 안되는 건가요??

이러한 경우에는 어떠한 전략으로 스크래핑을 해야하는지 조언해주시면 감사드리겠습니다!!

 

python vscode gemini

回答 2

0

todaycode

안녕하세요. robots.txt 는 권고사항이고 강제사항은 아닙니다.

권고사항이라 지키는 것이 좋지만 이미 레딧의 많은 글은 LLM 모델에서도 학습에 사용하고 있는 것으로 알려져 있습니다.

해당 데이터를 수집해서 무단으로 공개하는 것이 아니라 개인 연구용으로 사용한다면 수집을 하더라도 문제가 될 소지는 많지 않습니다.

감사합니다!

0

Jh P

애매한 사항이라 난감하실 수도 있었을텐데 답변해주셔서 감사합니다!!
크롤링 자체 경험이 없어서 이런 부분들을 잘 몰라서 질문드렸습니다! 감사드립니다!!

0

todaycode

윤리적인 내용만 잘 지켜서 연구용으로 사용하신다면 괜찮을 듯 합니다. 감사합니다!

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. Jh P님.

웹 스크래핑과 관련하여 질문을 주셔서 감사합니다. 레딧이나 다른 웹사이트의 경우, robots.txt 파일은 그 사이트가 어떤 방식으로 웹 크롤링 봇을 허용하거나 제한하는지를 알려주는 지침 파일입니다. 이는 보통 검색 엔진이나 다른 자동화된 봇들에게 사이트의 정책을 전달하기 위한 것입니다.

  1. 효과적인 스크래핑 전략:

    • 허용범위 확인: robots.txt 파일을 통해 어느 부분이 허용되는지 확인하십시오. 대부분의 경우, 사이트의 주요 콘텐츠는 크롤링 제한이 걸릴 수 있습니다.
    • API 사용: 레딧은 공식 API를 제공하므로, API를 사용하는 것이 가장 안전하고 합법적인 데이터 수집 방법입니다. 인증 문제도 쉽게 처리할 수 있으며, 필요한 데이터를 쿼리할 수 있는 다양한 엔드포인트를 제공합니다.
    • 공개 데이터 사용: 로그인 없이도 확인 가능한 정보 중에서 공개적으로 제공되는 데이터를 중심으로 스크래핑하세요. 그러나 스크래핑 전 반드시 사용 약관을 확인해야 합니다.
  2. 법적 및 윤리적 고려사항:

    • 웹사이트의 Terms of Service(서비스 약관)을 항상 확인하셔야 합니다. 레딧 등 주요 플랫폼에는 스크래핑에 관한 구체적인 지침과 제한이 명시되어 있습니다. 이를 위반할 경우 법적 문제로 이어질 수 있습니다.
    • 사이트의 서버에 과도한 부하를 주지 않도록 요청 간 간격을 충분히 두는 등 윤리적인 방식으로 접근해야 합니다.

다음은 도움이 될 만한 기존 답변이 포함된 게시글입니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

6-6

0

8

1

작업형 1 유형 부분

0

11

1

수강평 이벤트

0

17

2

작업형 1 (삭제예정, 구 버전)

0

31

2

강의노트는 어디있나요?

0

17

1

노션 학습 자료 권한 요청

0

17

1

수강기간 연장 문의드립니다.

0

21

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

24

3

part2강의 문의사항입니다.

0

19

2

수강기간 연장 문의드립니다.

0

26

1

인덱스 슬라이싱

0

27

2

코드를 첨부해야하는 이유가 있나요?

0

20

2

소리가 겹쳐서 들려요

0

21

2

데스크톱과 노트북 연결

0

26

1

dict, zip

0

21

2

노션 : 파트3번 링크와 권한 , 파트4번 권한요청, 파트 5번도 미리 요청 드립니다.

0

27

4

yes24 수집 md 파일 만들 때

0

24

2

프리젠테이션 도구

0

73

1

로그인 필수 사이트 정보 수집시

0

156

2

0201 데이터 수집을 위한 프롬프트 컨텍스트 문서 작성과 코드 작성 실행시 도서정보링크확인

0

104

3

질문입니다

0

79

1

md파일 수정만 하는게 아니라 실제 파일 수정

0

192

3

26번 영상과 23번 영상이 같습니다

0

89

1

영상에 사용한 슬라이드

0

94

2