inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[신규 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)

크롤링을 하고 싶은 사이트가 있는데요. 막히네요

261

SJ J

작성한 질문수 1

0

response = requests.get('https://kor.lottedfs.com/kr/product/productDetail?prdNo=20000731813&prdOptNo=20000908364&dispShopNo1=10031760&dispShopNo2=10031840&dispShopNo3=10032224')
html = response.text
soup = BeautifulSoup(html, 'html.parser')
response.text

이와 같이 들어가면 캡챠화면이 뜨는데 셀레니움으로 작접들어가는거 말고는 방법이 없을까요?

python 웹-크롤링

답변 1

0

스타트코딩

import requests

headers = {
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'accept-language': 'ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36',
}

params = {
    'prdNo': '20000731813',
    'prdOptNo': '20000908364',
    'dispShopNo1': '10031760',
    'dispShopNo2': '10031840',
    'dispShopNo3': '10032224',
}

response = requests.get('https://kor.lottedfs.com/kr/product/productDetail', params=params, headers=headers)
print(response.text)

이런식으로 헤더를 한번 추가해 보실래요?

근데 여러번 시도하면 사이트에서 비정상적인 접근으로 판단하고 봇으로 탐지하네요

셀레니움을 사용하는게 더 나을거 같습니다 ㅎㅎ

셀레니움 환경설정 오류

0

48

2

네이버 로그인 관련

0

261

2

안녕하세요 셀레니움에 대해서 질문

0

85

1

크롤링 연습사이트 문의

0

97

2

선택자 질문

0

71

2

'특정 요소가 나타날 때까지 스크롤' 부분 에러

0

78

2

자동 로그인 질문

0

89

2

44강 제목, 링크

0

105

1

원하는 값이 없을 때

0

90

2

크롤링한 링크가 엑셀로 들어가면 작동이 안되요

0

227

2

셀레니움 PDF자료는 받을 수 있나요

0

100

2

글목록 추출하기

0

98

2

메일 자동화 로그인 중복방지문자해결 오류 및 명시적 대기 질문

0

88

2

강의 노트가 어디에 있는건가요?

0

80

2

강의 커리큘럼 질문

0

98

1

조건문 else 사용하지 않는 이유

0

76

2

셀레니움으로 접근할 수 없는 경우

0

95

2

웹페이지 변경

0

72

2

자바스크립트로 태그 선택 시 질문입니다.

1

64

2

수료증은 어떻게 받나요?

0

120

2

class명을 활용하여 선택자를 만들지 않는 경우..?

0

61

2

드라이버가 안 열려요

0

79

2

이거 해결방법 아시는 분?

0

121

2

네이버 지식인 크롤링..

0

202

2