inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

모두를 위한 ChatGPT Part 1 - ChatGPT를 이용한 업무자동화와 파이썬 입문

ChatGPT를 이용한 크롤링 업무 자동화 실습 1 - 네이버 뉴스 제목 크롤링

네이버 뉴스 크롤링

916

saparkkpci

작성한 질문수 3

0

안녕하세요,

크롤링을 계속 진행하다 보면 403 에러가 발생합니다. 이를 우회할 방법이 있을까요? chatgpt에 문의를 해봤지만 해결되지 않네요.

 

chatgpt

답변 2

0

AISchool

안녕하세요~. 반갑습니다.

짧은 시간에 너무 많은 크롤링 요청을 진행할 경우 봇으로 인한 접근으로 간주되서 연결을 거부하는 403 에러가 뜰 수 있습니다. 따라서 크롤링 진행시에 단기간에 너무 많은 요청을 하는것은 피하는 것이 좋습니다.

 

또한 봇으로 인한 접근금지를 우회하는 방법으로 headers 부분에 User-Agent 설정을 시도해 볼 수 있습니다.

[ChatGPT를 이용한 크롤링 업무 자동화 실습 4 - 네이버 증권 종목토론실 크롤링] 영상을 참조해서 requests.get 요청을 할때 아래와 같이 headers 값을 추가해서 진행해보시겠어요?

 

headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3)'}

 

좋은 하루 되세요~.

감사합니다.

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

네이버 뉴스 크롤링 시 403 에러는 서버에 의해 접근이 거부되었다는 것을 의미합니다. 이 문제를 해결하기 위해 몇 가지 방법을 시도해 볼 수 있습니다.

  1. User-Agent 변경: 웹 서버가 크롤러로부터의 요청이 아니라 일반 사용자의 브라우저로부터의 요청으로 인식하도록 User-Agent를 변경해 보세요.
  2. 프록시 사용: IP 주소가 차단되었을 수 있으므로 프록시 서버를 사용하여 다른 IP 주소를 통해 접근해 보세요.
  3. 요청 간격 조절: 너무 많은 요청이 짧은 시간 안에 이뤄지면 웹 서버에서 이를 스팸으로 간주할 수 있습니다. 요청 간에 일정 시간 간격을 두어 보세요.

단, 웹 크롤링을 할 때는 해당 웹사이트의 이용 약관을 확인하고 법적인 제한을 준수하며 진행해야 합니다.

saparkkpci님, 원하는 해결책을 찾으시길 바랍니다.

교재 파일이나 실습자료 한번에 다운로드 받는 메뉴가 없나요

0

3

0

자료에 실습 데이터가 없어요.

0

17

1

화면이 보이지 않아요

0

32

1

AI 활용 기획 단계에서의 질문

0

35

0

라이브 녹화 문의

0

69

2

파워쉘에서 패키지 설치 시 오류

0

40

2

Chat GPT API 설정하기 프롬프트

0

46

2

구글 플레이 등록 시, Privact Policy URL 등록 팁

0

42

1

AI의 최적화

0

29

0

GPT 버전 문의

0

29

1

계정 관련 문의

0

48

2

진도율 확인

0

44

1

미드저니 설정

0

70

2

강의 자료 다운로드 관련 문의

0

47

1

이게 도대체 뭐죠?

0

60

1

강의 노트가 없나요

0

70

1

react agent 관련 질문입니다.

0

50

1

vs code IDE

0

78

2

보완 재생불가

0

39

1

Claude에서 MCP 서버 연결 안되는 문제

0

349

3

구글 코랩이 아닌 아나콘다를 이용해서 수강해도 문제가 없을까요?

1

67

1

.

0

56

2

강좌에 모듈 설치 부분은 다 건너띄고 하신건가요?

0

124

3

파이썬 라이브러리 관련 질문입니다.

0

139

2