네이버 뉴스 크롤링
933
3 asked
안녕하세요,
크롤링을 계속 진행하다 보면 403 에러가 발생합니다. 이를 우회할 방법이 있을까요? chatgpt에 문의를 해봤지만 해결되지 않네요.
Answer 2
0
안녕하세요~. 반갑습니다.
짧은 시간에 너무 많은 크롤링 요청을 진행할 경우 봇으로 인한 접근으로 간주되서 연결을 거부하는 403 에러가 뜰 수 있습니다. 따라서 크롤링 진행시에 단기간에 너무 많은 요청을 하는것은 피하는 것이 좋습니다.
또한 봇으로 인한 접근금지를 우회하는 방법으로 headers 부분에 User-Agent 설정을 시도해 볼 수 있습니다.
[ChatGPT를 이용한 크롤링 업무 자동화 실습 4 - 네이버 증권 종목토론실 크롤링] 영상을 참조해서 requests.get 요청을 할때 아래와 같이 headers 값을 추가해서 진행해보시겠어요?
headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3)'}
좋은 하루 되세요~.
감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
네이버 뉴스 크롤링 시 403 에러는 서버에 의해 접근이 거부되었다는 것을 의미합니다. 이 문제를 해결하기 위해 몇 가지 방법을 시도해 볼 수 있습니다.
- User-Agent 변경: 웹 서버가 크롤러로부터의 요청이 아니라 일반 사용자의 브라우저로부터의 요청으로 인식하도록 User-Agent를 변경해 보세요.
- 프록시 사용: IP 주소가 차단되었을 수 있으므로 프록시 서버를 사용하여 다른 IP 주소를 통해 접근해 보세요.
- 요청 간격 조절: 너무 많은 요청이 짧은 시간 안에 이뤄지면 웹 서버에서 이를 스팸으로 간주할 수 있습니다. 요청 간에 일정 시간 간격을 두어 보세요.
단, 웹 크롤링을 할 때는 해당 웹사이트의 이용 약관을 확인하고 법적인 제한을 준수하며 진행해야 합니다.
saparkkpci님, 원하는 해결책을 찾으시길 바랍니다.
수강기간즘연장해주세요
0
4
1
챌린지 인증은 어디서 하나요?
0
25
1
학습자료는 어디서 받을 수 있을까요?
0
33
1
예제 파일 다운 불가
0
34
1
강의 잘 봤습니다.
0
30
2
SKILL 기능 관련
0
31
1
강의 완료 시점 문의
0
28
1
함수를 입력한 후
0
37
2
AI가 만들어 주는 엑셀 함수를 다 이해하고 넝어가야 할까요?
0
41
1
클라우드 가입 시 회사 이메일
0
43
1
일반 강의와 차이점?
1
53
1
강의 잘 들었습니다!!
0
52
1
13, 14강 진행되지 않는 문제
0
34
2
import 오류
0
36
1
자동화 프로그램 프로젝트
0
36
1
수업 내 사용되는 프롬프트 등 강의 자료
0
30
1
개발환경에 대해셔 설명부탁드립니다.
0
36
1
수업자료 및 프롬프트 어디서 다운 받는 건가요?
0
33
1
챌린지 과제 문의
0
69
1
어텐션의 정의
0
21
1
섹션22 퀴즈 질문
0
54
1
챗봇 기능 구체화 (RAG)
0
45
2
강의 자료 다운로드 관련 문의
0
58
1
파이썬 라이브러리 관련 질문입니다.
0
150
2

