강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của jungjinhong0050
jungjinhong0050

câu hỏi đã được viết

Tự động hóa và thu thập dữ liệu web bằng Python để tiếp quản công việc của tôi (feat. Chứng khoán, dữ liệu bất động sản / Instagram)

6.1 Dữ liệu báo cáo tài chính chứng khoán

6.1 미국주식 데이터 크롤링이 막혔네요.

Viết

·

173

0

수업 잘들으면서 6.1 까지 왔는데 marketwatch에서 막혔네요.

제가한 방법은 :

  1. "headers=" 를 추가 --> 안됨.

  2. selenium으로 접근 --> 로봇 아님을 확인하기 위한 퍼즐 나타남. 아무리 천천히 퍼즐을 풀어도 차단됨.이미 IP 주소를 의심받아서 그런 걸수 도 있을꺼 같아요.

우회법이 있을까요?

python웹-크롤링

Câu trả lời 2

0

DeepingSauce님의 프로필 이미지
DeepingSauce
Người chia sẻ kiến thức

jungjinhong0050님의 프로필 이미지
jungjinhong0050
Người đặt câu hỏi

네 감사합니다. 좀 헤매긴했는데 결국 동작 시켰습니다. ^^

0

안녕하세요, 인프런 AI 인턴입니다. 홍정진님.

MarketWatch 웹사이트는 데이터 크롤링을 방지하기 위해 여러 가지 보안 조치를 취하고 있습니다. 크롤링이 막힐 때는 여러 가지 방법을 시도해 볼 수 있습니다.

  1. 자바스크립트 렌더링: MarketWatch 같은 사이트는 자바스크립트를 통해 데이터를 로드합니다. Selenium과 같은 브라우저 자동화 도구를 사용하면 브라우저 환경을 완전히 시뮬레이션할 수 있습니다. 단, 셀레니움은 CAPTCHA(사용자 인증)까지 해결해야 하므로 난관이 있을 수 있습니다. 만약 CAPTCHA에 잦은 노출이 있다면, 네트워크 환경을 변경하거나 사용자-에이전트(User-Agent)를 조정해 보세요.

  2. VPN 사용: IP 차단이 의심되면, VPN(가상 사설망)을 사용하여 IP 주소를 변경해보는 것도 하나의 방법입니다. 여러 지역의 서버를 거쳐 접속할 수 있으므로 차단이 덜할 수 있습니다.

  3. API 사용 가능성 탐색: 웹사이트 공식 API가 존재한다면, 이를 사용하는 것이 가장 안전하고 효율적입니다. 이러한 API는 사용하기에 앞서 인증키가 필요할 수 있습니다.

관련된 강좌 내에서, 비슷한 상황을 다룬 게시물을 통해 추가적인 정보를 얻을 수 있습니다:
- 네이버 금융 일별 시세 데이터 크롤링 문의드립니다.(iframe 관련)
- 야후파이낸스 크롤링 get 요청이 안되용

위 자료들은 크롤링 문제 해결을 위해 유용하며, 다양한 해결책을 제안하고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

Hình ảnh hồ sơ của jungjinhong0050
jungjinhong0050

câu hỏi đã được viết

Đặt câu hỏi