inflearn logo
강의

講義

知識共有

現在最強のクロール技術: ScrapyとSeleniumを征服

[실전 크롤링: 지마켓 크롤링하며, scrapy 실전 활용법 익히기1] 5분50초쯤 질문

220

toaehddn

投稿した質問数 29

0

안녕하세요, 강사님.
항상 좋은강의에 감사드립니다.
 
제목과 같은 위치에서 해주신 설명이
1) G마켓 카테고리의 url을 다 spider_name.py의 spider_nameSpider class에서 클래스변수인 start_urls(리스트)에 복사붙여넣기하면 그 url이 바뀔경우 유효하지 않으므로
2) G마켓 ALL카테고리(default)에서 카테고리들을 다 css selector로 찾아가자
라고 말씀을 해주셨습니다.
 
그러면 url이 바뀌더라도, 바뀐 url을 css selector를 통해 잘 찾아갈 것으로 이해가 됩니다.
 
그런데 제가 이런 부분에 잘 모르다보니까...
반대로는 css selector가 바뀐다면 못찾아가는 상황이 나오지 않을까? 걱정됩니다.
일반적으로 css selector는 url 같은것보다 더 안바뀌니까, 상대적으로 변동 가능성이 적다고 보는것인가요?
(사실 이강의 및 이 앞의 강의에서도 url을 간 후 css selector로 찾아가는데, 제가 홈페이지를 어떻게 만드는지 전혀 모르다 보니까... 극단적으로 만든사람이 css selector를 바꿔벌니다면 코드가 작동하지않은지? 에 대한 궁금증이 있었습니다.)
 
더 나아가... 홈페이지를 만드는 입장에서 굳이 크롤링하는사람들을 배려해주진 않을것 같지만
OpenAPI 같은경우는 어떤게 어떤거다~ 등의 설명이 있는데,
크롤링을 하는 입장에서는 기존대비 변경된것들이 이런게 있으니 유의하세요~ 라고 따로 안내같은건 없겠죠?
 
관련하여 답변주시면 큰 도움이 될 것 같습니다!

scrapy selenium 웹-크롤링

回答 1

0

funcoding

음 질문을 한참 보고 있는데, 질문이 css selector 가 바뀌면, 못 찾아가는 상황이 있을 수 있는 것이 아니냐 라는 말씀이시죠? URL 은 잘 안바뀌는데 css selector 는 바뀔 수 있지 않겠냐 라는 것인거죠?

크롤링은 전에 질문에 답변드렸듯이 서버 입장에서는 그렇게 좋아하는 기능은 아니고, 일부 막기도 하는것이니까요. 서버 입장에서 그런 가이드를 하는 경우는 일반적으로 없습니다.

웹페이지가 수시로 바뀌다보니 css selector 는 수시로 이에 맞추어 바뀌어야 하고요. 그래서 본 강의도 수시로 바뀌는 css selector 를 최대한 제가 업데이트를 자료에 해놓은 것이고요. URL 까지 바뀌는 경우도 있지만, css selector 만큼은 일반적으로는 수시로 바뀌지는 않습니다.

코딩을 잘 따라 한 것 같은데 오류가 발생하는 것 같습니다

0

625

1

scrapy를 jupyter 환경에서 할 수 있나요

0

359

1

[실전 크롤링: scrapy 크롤링 팁] 질문있습니다.

0

313

1

[강력/최신 크롤링 기술: Scrapy 로 지마켓 크롤링하기1] 관련 질문

0

278

1

xml을 parsing할때 <을 &lt; 로 인식합니다.

0

333

1

pipelines.py에서 process_item내에서 print문이 작동을 하지 않네요 ㅠ

0

291

3

PhantomJS 문의

0

293

1

selenium 문의

0

328

1

브라우저 제어해서 크롤링하기 - 처음강의 마지막부분 문의

0

3003

1

on error 해결 방법 질문

0

356

1

[팁] 윈도우 cmd 커맨드

0

346

1

[팁]Chrome User Agent 아는법

0

327

1

실전 크롤링: 브라우저를 제어해서 트위터 사이트 로그인 하기 질문

0

253

1

동영상 강의 만드실 때 사용한 툴을 알려주실 수 있을까요?

0

237

1

CSS Selector 에서 질문이 있습니다.

0

434

2

pip install scrapy 오류

0

482

1

셀레니움 실행불가

0

1577

1

실전 크롤링: XPATH와 Selenium 활용해서 페이스북 로그인 하기 에서 질문이 있습니다.

0

225

1

언제 get_text()를 사용하고 또 언제 .text를 사용하나요?

0

286

1

강의교안자료 받을수있을까요?

0

262

1

[강의 9:27관련 질문] price, title 열 위치

0

159

1

div에 있는 클래스가 2개이면 어떻게 하나요?

0

367

1

css 셀렉터에 대해 질문이 있습니다.

0

147

1

계쏙 질문해서 죄송합니다...

0

227

1