inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

현존 최강 크롤링 기술: Scrapy와 Selenium 정복

현업에서의 크롤링 활용

294

하록

작성한 질문수 6

0

완강 후 하고 싶었던 크롤링들 시도해봤는데... 꼭 해보고 싶었던 사이트는 자체적으로 크롤링 못하게 다 막아놨네요ㅠㅠ

현업에 계신분들은 보통 어떤 것들을 크롤링하는지 궁금합니다.

예시에서와 같이 네이버, 지마켓 등등 위주로 크롤링 하시는지요?

웹-크롤링 scrapy selenium

답변 1

1

잔재미코딩 DaveLee

안녕하세요. 조금더 추가로 설명을 드리면, 강좌에서 여러 크롤링 기술을 설명한 이유가, 특정 기술로는 막혀진 사이트에 대해서도 다른 기술로는 접근이 가능한 경우가 있어서 그런것인데요. 최선(?)을 다해 막아놓은 사이트가 아니고서는 왠만한 사이트는 대부분 크롤링이 가능한데요. 어떤 사이트인지 궁금하긴 하네요. 심지어 그런 사이트들이라 할지라도, 사이트에서 정보를 제공하고자 하는 사이트라면, 오픈API를 별도로 제공하는 경우도 많습니다.

마지막으로, 크롤링은 사실 다소 법적 이슈까지도 있을수 있는 기술이라서요. 현업에서 어떤 특정 사이트, 어떤 정보를 크롤링한다라는 것 자체가 좀 뭐라 말씀드리기가 쉽지 않은 부분이 있습니다. 한두달전에도 타사 정보를 가져와서 활용했다 이런 뉴스가 있었던적도 있었는데 이런 부분이 결국 크롤링 기술을 활용한 것인데요. 말씀드릴수 있는것은 필요에 따라 크롤링 기술을 활용하는것은 맞습니다만, 어느 정보 어떤 사이트를 주로 크롤링한다라고 이야기드리기는 경우에 따라 다르고, 법적 이슈가 없는 정도 선에서만 진행하려고 하고 있습니다.

감사합니다

코딩을 잘 따라 한 것 같은데 오류가 발생하는 것 같습니다

0

626

1

scrapy를 jupyter 환경에서 할 수 있나요

0

361

1

[실전 크롤링: scrapy 크롤링 팁] 질문있습니다.

0

313

1

[실전 크롤링: 지마켓 크롤링하며, scrapy 실전 활용법 익히기1] 5분50초쯤 질문

0

221

1

[강력/최신 크롤링 기술: Scrapy 로 지마켓 크롤링하기1] 관련 질문

0

279

1

xml을 parsing할때 <을 &lt; 로 인식합니다.

0

335

1

pipelines.py에서 process_item내에서 print문이 작동을 하지 않네요 ㅠ

0

292

3

PhantomJS 문의

0

294

1

selenium 문의

0

330

1

브라우저 제어해서 크롤링하기 - 처음강의 마지막부분 문의

0

3004

1

on error 해결 방법 질문

0

356

1

[팁] 윈도우 cmd 커맨드

0

347

1

[팁]Chrome User Agent 아는법

0

328

1

실전 크롤링: 브라우저를 제어해서 트위터 사이트 로그인 하기 질문

0

255

1

동영상 강의 만드실 때 사용한 툴을 알려주실 수 있을까요?

0

237

1

CSS Selector 에서 질문이 있습니다.

0

436

2

pip install scrapy 오류

0

484

1

셀레니움 실행불가

0

1579

1

실전 크롤링: XPATH와 Selenium 활용해서 페이스북 로그인 하기 에서 질문이 있습니다.

0

227

1

언제 get_text()를 사용하고 또 언제 .text를 사용하나요?

0

288

1

강의교안자료 받을수있을까요?

0

263

1

[강의 9:27관련 질문] price, title 열 위치

0

160

1

div에 있는 클래스가 2개이면 어떻게 하나요?

0

368

1

css 셀렉터에 대해 질문이 있습니다.

0

147

1