왜 크롤링이안될까요?ㅠㅠ

Question

강사님 코드로 똑같이 실행했는데 이렇게해서 오류가 나는데 아무리 생각해도 뭐가 잘못된건지모르겠습니다 [사진][사진]

Answer

안녕하세요.

우선 혹시... allowed_domains 가 본래 코드에 없는 것 아닌가요? 하도 오랜만이라서, 저도 찾아봤는데, 해당 변수값이 없는 것 같아서요. 이 부분 확인부탁드리고요.

다음으로, 해당 사이트가 실제 사이트다보니, 해당 사이트가 업데이트되며, 수시로 변경이 되는 부분이 있습니다. 그렇더라도, css selector 만 다시 한번 확인해보시면서, 적용해보시면 가능은 하신데요. 우선 다음과 같이 해당 코드에서 li[id] 부분을 수정해서, 관련 코드에도 업데이트를 하였습니다.

2021년 5월 3일 자료 업데이트 사항:

gmarket_best.py 파일의 다음 코드가 변경되어 관련 코드를 업데이트하였습니다. 해당 사이트가 실제 사이트이다보니, 사이트가 변경되어 CSS Selector 를 그때마다 변경하였으며, 이와 같이 css selector 사용법만 잘 적용하신다면, 크롤링이 가능합니다.

------------

# 2021.05.03 해당 사이트의 li 태그가 변경되어, 기존 li[id] 를 li 로 변경하였습니다. 참고부탁드립니

#titles = response.css('div.best-list > ul > li[id] > a::text').getall()

#prices = response.css('div.best-list > ul > li[id] > div.item_price > div.s-price > strong > span > span::text').getall()

titles = response.css('div.best-list > ul > li > a::text').getall()

prices = response.css('div.best-list > ul > li > div.item_price > div.s-price > strong > span > span::text').getall()

--------------

해당 자료는 다음 강의에 첨부파일로 업데이트하여 넣어놓았습니다.

- 실전 크롤링: 지마켓 크롤링하며, scrapy 실전 활용법 익히기1

감사합니다.

무간도

왜 크롤링이안될까요?ㅠㅠ

이 글과 비슷한 Q&A

선생님이랑 똑같이 적었는데 저는 왜 오류가 날까요?ㅠ

1강에서 localhost:4000 접속

이것도 로직이 바뀐 것 같아요.

환불요청 실습 진행 적용 불가