• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 엔지니어링

  • 해결 여부

    미해결

현업에서의 크롤링 활용

19.09.05 20:35 작성 조회수 194

0

완강 후 하고 싶었던 크롤링들 시도해봤는데... 꼭 해보고 싶었던 사이트는 자체적으로 크롤링 못하게 다 막아놨네요ㅠㅠ

현업에 계신분들은 보통 어떤 것들을 크롤링하는지 궁금합니다.

예시에서와 같이 네이버, 지마켓 등등 위주로 크롤링 하시는지요?

답변 1

답변을 작성해보세요.

1

안녕하세요. 조금더 추가로 설명을 드리면, 강좌에서 여러 크롤링 기술을 설명한 이유가, 특정 기술로는 막혀진 사이트에 대해서도 다른 기술로는 접근이 가능한 경우가 있어서 그런것인데요. 최선(?)을 다해 막아놓은 사이트가 아니고서는 왠만한 사이트는 대부분 크롤링이 가능한데요. 어떤 사이트인지 궁금하긴 하네요. 심지어 그런 사이트들이라 할지라도, 사이트에서 정보를 제공하고자 하는 사이트라면, 오픈API를 별도로 제공하는 경우도 많습니다.

마지막으로, 크롤링은 사실 다소 법적 이슈까지도 있을수 있는 기술이라서요. 현업에서 어떤 특정 사이트, 어떤 정보를 크롤링한다라는 것 자체가 좀 뭐라 말씀드리기가 쉽지 않은 부분이 있습니다. 한두달전에도 타사 정보를 가져와서 활용했다 이런 뉴스가 있었던적도 있었는데 이런 부분이 결국 크롤링 기술을 활용한 것인데요. 말씀드릴수 있는것은 필요에 따라 크롤링 기술을 활용하는것은 맞습니다만, 어느 정보 어떤 사이트를 주로 크롤링한다라고 이야기드리기는 경우에 따라 다르고, 법적 이슈가 없는 정도 선에서만 진행하려고 하고 있습니다.

감사합니다