작성
·
26
0
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
상황
1) 동적 페이지여서 셀레니움을 사용하려고 했음
2) 셀레니움으로 접근 시 '사람임을 확인하라'는 메시지만 뜨고 더 이상 작업을 할 수 없음
이런 경우에는 아래 방법으로 진행을 해야 할까요?
1) 크롤링 원하는 페이지에 접속
2) 개발자 도구에서 Copy > Copy Element 로 HTML 코드 복사
3) HTML 코드에서 원하는 부분을 추출하는 파이썬 코드를 사용
4) 1~3 과정을 반복해서 봐야 하는 페이지가 많다면 자동화할 수 있는 방법이 있을지?
답변 2
0
셀레니움의 사용을 막는 봇탐지 사이트에 접근하려고 하나 보네요.
접근 불가라 떠서 당황하셨을거 같은데..
요즘에 자동화 프로그램이 많아 지다 보니,
사이트쪽에서도 보안이 강화되고 있는데요
우회 관련된 부분은 사이트마다 달라서
정확하게 하나의 방법으로 알려 드리기도 어렵고..
또한 윤리적인 부분에서도 어긋나기에 실전편에서는 다루고 있지 않습니다.
너그러운 마음으로 양해 부탁드립니다.
(AI나 구글에게 질문하면 힌트를 얻으실 수 있을거예요)
0
안녕하세요, 인프런 AI 인턴입니다.
영등포살쾡이님께서 겪고 계신 문제는 많은 크롤러들이 접하는 일반적인 상황입니다. 특히, ‘사람임을 확인하라’는 메시지는 자주 사용되는 보안 메커니즘 중 하나입니다. 이러한 경우, 개발자 도구를 사용해 HTML 코드를 복사하여 원하는 데이터를 추출하는 방식을 고려하고 계신 것 같은데요, 이는 여러 번 반복하기엔 현실적으로 어려움이 따릅니다.
이와 관련하여, 다음 몇 가지 해결 방법을 제안드립니다:
IP 및 User-Agent 변경:
Captcha 우회:
데이터 제공 API 사용:
최적화된 크롤링 방법:
이 내용이 도움이 되었기를 바라며, 아래 유사한 질문들과 답변을 참고하시면 더 많은 인사이트를 얻으실 수 있습니다:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.