inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

실습으로 끝장내는 웹 크롤링과 웹 페이지 자동화 & 실전 활용

제품정보 클래스 알아내고 광고제품 제거

쿠팡 크롤링

1179

asd203n

작성한 질문수 5

1

강사님의 훌륭한 강의력에 감탄하며 쿠팡 크롤링을 제외한 부분은 다 들었습니다. 감사합니다.

쿠팡 크롤링 파트에 질문이 있습니다.

쿠팡크롤링오류.png

3월27일 기준으로 위 방법이 막힌것같습니다.

다른 방법을 찾으려고 했지만, 셀레니움 밖에 찾지 못했습니다.

뷰티풀숩을 이용한 해결책은 없나요?

python 웹-크롤링 selenium beautifulsoup

답변 2

1

김플

해결했습니다!
헤더값을 좀 더 넣어주면 됩니다.
기존에 유저 에이전트만 있었다면

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36",
    "accept-language": "ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7"
}

"accept-language": "ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7" 이걸 추가해보세요.

0

김선영

와 감사합니다! 저도 같은내용으로 질문하려고 했는데! 이글 보고 해결했습니다!

이것 말고도 봇으로 인식하지 않게, 조금 더 완벽해 지도록......?

headers에 추가할 수 있는게 있을까요?

user agent랑 accept-Language 말구요!

0

김플

사이트 접속 후 개발자도구 - 네트워크탭 - 새로고침 - 유형에서 document인 이름을 클릭 - 요청 헤더를 확인하면 다른 값을 찾을 수 있습니다.
하지만 이런걸 많이 넣어서 봇으로 인식하지 않게 한다고 안막히고 다 되는게 아닙니다.
막히는 이유는 대부분 사람인지 로봇인지 인식 문제가 아니라 정상적이지 않다고 판단될때 막히는 겁니다. 아무리 온갖 헤더값을 넣어서 사람처럼 보이게 하더라도 비정상적인 행동을 지속적으로 한다면 차단될겁니다.

1

김플

헉!
엄청난 문제가 생겼네요.
방법을 찾아보고 안되면 셀레니움으로 대체하도록 해야겠습니다.

멜론 사이트 수집부터 안됩니다

0

62

1

강의 시점이랑 현재랑 네이버 사이트 변화가 많은거 같아서 질문드립니다.

0

58

1

-href 가져오기

0

91

2

수업내용 프로젝트의 완성된 코드는 제공이 안돼나요?

0

157

1

안녕하세요 쿠팡 크롤링 막힌거 같아요 3번돌리니깐 막았어요 해결방법없을까요?

0

3649

1

쿠팡 BeautifullSoup 헤더넣어도 막히네요

0

443

1

네이버 쇼핑 크롤링 1 코드 사용 시, 접속 제한됐을 때의 해결 방법이 궁금합니다.

0

3184

1

추가 강의 업데이트 있나요?

0

246

1

lambda 중에 문의가 있습니다.

0

269

1

텔레그램 sendMessage 시 400에러가 뜹니다.

0

903

2

ftp 로긴 문제입니다. ㅜ

0

410

2

네이버 쇼핑 크롤링 질문입니다.

0

369

1

XPATH 네이버에서 카페 찾는 과정 문의입니다.

1

312

1

셀레니움 By.XPATH 를 이용한 키워드 입력 작성 질문입니다.

0

671

2

쿠팡 이미지 파일 다운받기에서 동일하게 코드 작성 후 요청하였지만 파일 다운로드가 안됩니다.

0

810

2

파이썬에 키워드를 치는게 아닌...

0

276

2

50프로 수강중입니다~

0

219

1

제품 링크를 타고 들어가야 원하는 정보가 나오는 사이트

0

385

2

lst = lst50 + lst100 이거 대신에

0

323

2

증권, 메일 등 서비스 목록을 못가져와요 ㅠㅠ

1

286

1

네이버에 view탭이 업데이트가 됐는지 없어졌네요... ㅠㅠ

1

245

1

선생님이랑 똑같이 적었는데 저는 왜 오류가 날까요?ㅠ

0

355

2

네이버쇼핑 크롤링 문의

0

430

2

asyncio.run() cannot be called from a running event loop 에러 질문 드립니다

0

3904

4