requests, soup로 크롤링 했을때 안가져와지는 경우 어떻게 해야하나요?
661
작성한 질문수 3
안녕하세요.
문의드려요.
실전으로 쇼핑몰들 크롤링 해보고 있는데요.
상품 상세 페이지라면 가격, 브랜드명 이런건 되는데,
상품 상세 정보 부분은 크롤링이 안되더라고요.
지그재그 등
header에 에이전트 모질라 넣어도 안되고..
그리고 어떤 사이트는 res.statusCode 찍어보면 403이나 404가 오는 사이트도 있고..
위 두가지 유형처럼 막혀있을 경우 뚫을 수 있는 방법이 있을까요?
답변 2
0
안녕하세요.
코딩을 가장 쉽게 알려주는 크리에이터 스타트코딩입니다.
1) 쇼핑몰 크롤링 답변
상품의 가격, 브랜드명은 정적인 부분인데 반해
상품의 상세 부분은 동적인 부분일 것 같습니다.
즉, ajax 크롤링 방식을 사용하거나 셀레니움을 통해 크롤링 해야 할 겁니다.
사이트 URL과 가져오려고 하는 부분을 말씀 해주시면 한번 확인해보겠습니다.
2) 응답 코드에 대한 답변
404 : Page not Found 오류
없는 페이지 URL을 요청했을 때 발생하는 응답코드입니다.
403 : Forbidden 오류
권한이 없는 요청에 대한 거절 시 발생하는 응답코드입니다. 강의 예제 중 네이버 뉴스 크롤링에서 다뤘습니다.
header를 user-agent 말고 더 추가하거나, 셀레니움으로 크롤링 하시면 됩니다.
마찬가지로 사이트 URL과 가져오려고 하는 부분을 말씀 해주시면 한번 확인해보겠습니다.
3) iframe에 대한 답변
네이버 지도 크롤링 예제 부분에서 자세히 설명되어 있습니다.
셀레니움 환경설정 오류
0
46
2
네이버 로그인 관련
0
255
2
안녕하세요 셀레니움에 대해서 질문
0
85
1
크롤링 연습사이트 문의
0
96
2
선택자 질문
0
71
2
'특정 요소가 나타날 때까지 스크롤' 부분 에러
0
76
2
자동 로그인 질문
0
86
2
44강 제목, 링크
0
105
1
원하는 값이 없을 때
0
89
2
크롤링한 링크가 엑셀로 들어가면 작동이 안되요
0
227
2
셀레니움 PDF자료는 받을 수 있나요
0
100
2
글목록 추출하기
0
97
2
메일 자동화 로그인 중복방지문자해결 오류 및 명시적 대기 질문
0
88
2
강의 노트가 어디에 있는건가요?
0
80
2
강의 커리큘럼 질문
0
98
1
조건문 else 사용하지 않는 이유
0
76
2
셀레니움으로 접근할 수 없는 경우
0
95
2
웹페이지 변경
0
70
2
자바스크립트로 태그 선택 시 질문입니다.
1
64
2
수료증은 어떻게 받나요?
0
120
2
class명을 활용하여 선택자를 만들지 않는 경우..?
0
60
2
드라이버가 안 열려요
0
79
2
이거 해결방법 아시는 분?
0
121
2
네이버 지식인 크롤링..
0
201
2





