inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[신규 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)

requests, soup로 크롤링 했을때 안가져와지는 경우 어떻게 해야하나요?

661

ms

작성한 질문수 3

0

안녕하세요.

문의드려요.

 

실전으로 쇼핑몰들 크롤링 해보고 있는데요.

상품 상세 페이지라면 가격, 브랜드명 이런건 되는데,

상품 상세 정보 부분은 크롤링이 안되더라고요.

 

header에 에이전트 모질라 넣어도 안되고..

 

그리고 어떤 사이트는 res.statusCode 찍어보면 403이나 404가 오는 사이트도 있고..

 

위 두가지 유형처럼 막혀있을 경우  뚫을 수 있는 방법이 있을까요?

python 웹-크롤링

답변 2

0

스타트코딩

안녕하세요.

코딩을 가장 쉽게 알려주는 크리에이터 스타트코딩입니다.

 

1) 쇼핑몰 크롤링 답변

상품의 가격, 브랜드명은 정적인 부분인데 반해

상품의 상세 부분은 동적인 부분일 것 같습니다.

 

즉, ajax 크롤링 방식을 사용하거나 셀레니움을 통해 크롤링 해야 할 겁니다.

사이트 URL과 가져오려고 하는 부분을 말씀 해주시면 한번 확인해보겠습니다.

 

2) 응답 코드에 대한 답변

404 : Page not Found 오류

없는 페이지 URL을 요청했을 때 발생하는 응답코드입니다.

403 : Forbidden 오류

권한이 없는 요청에 대한 거절 시 발생하는 응답코드입니다. 강의 예제 중 네이버 뉴스 크롤링에서 다뤘습니다.

header를 user-agent 말고 더 추가하거나, 셀레니움으로 크롤링 하시면 됩니다.

마찬가지로 사이트 URL과 가져오려고 하는 부분을 말씀 해주시면 한번 확인해보겠습니다.

 

3) iframe에 대한 답변

네이버 지도 크롤링 예제 부분에서 자세히 설명되어 있습니다.

0

ms

iframe 밑에

#document로 이중(?) 구조로 된 것도 크롤링 할수있는 방법이 있을지 문의드려요

셀레니움 환경설정 오류

0

46

2

네이버 로그인 관련

0

255

2

안녕하세요 셀레니움에 대해서 질문

0

85

1

크롤링 연습사이트 문의

0

96

2

선택자 질문

0

71

2

'특정 요소가 나타날 때까지 스크롤' 부분 에러

0

76

2

자동 로그인 질문

0

86

2

44강 제목, 링크

0

105

1

원하는 값이 없을 때

0

89

2

크롤링한 링크가 엑셀로 들어가면 작동이 안되요

0

227

2

셀레니움 PDF자료는 받을 수 있나요

0

100

2

글목록 추출하기

0

97

2

메일 자동화 로그인 중복방지문자해결 오류 및 명시적 대기 질문

0

88

2

강의 노트가 어디에 있는건가요?

0

80

2

강의 커리큘럼 질문

0

98

1

조건문 else 사용하지 않는 이유

0

76

2

셀레니움으로 접근할 수 없는 경우

0

95

2

웹페이지 변경

0

70

2

자바스크립트로 태그 선택 시 질문입니다.

1

64

2

수료증은 어떻게 받나요?

0

120

2

class명을 활용하여 선택자를 만들지 않는 경우..?

0

60

2

드라이버가 안 열려요

0

79

2

이거 해결방법 아시는 분?

0

121

2

네이버 지식인 크롤링..

0

201

2