• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

최고의 강의, 그리고 질문

22.06.08 20:31 작성 조회수 191

0

안녕하세요. 본 강의 외 고급크롤링 기술 강의도 잘 듣고 있습니다.

 

제가 사실 크롤링 강의를 듣게된 배경은 html내 meta값들을 불러와서 미리보기로 보여주는 형식(페북, 카톡에 링크를 입력하면 Title, Thumbnail, Description 들을 보여주는 것) 때문 이었는데요.

 

이런것 또한 전부 기업에서 크롤러를 만들어서 다 긁어오는건가요? 아니면 api제휴를 통해서 data를 안전하게 받아오나요?

 

알려주신 지식으로 여러 형태의 사이트를 크롤링해보니 꼭 meta값을 가지지 않은 사이트 들도 있더라고요 (어쩌면 js나 iframe 등으로 한번에 긁어가지 못하게 한 사이트들도 있구요)

 

그래서 본질적으로 제가 하는 크롤링으로 소위 말하는 미리보기 기능을 구현하는게 맞는지가 의문입니다...(사이트를 결국엔 하나하나 다 뒤져서 html에 meta값이 있는지 다 확인해야하는데 이건 좀 비효율적인 듯 해서요)

 

강의 감사합니다. 한번 더 들어보려고요.

답변 1

답변을 작성해보세요.

1

안녕하세요.

깜짝 놀랐습니다. 최고 강의라고 문의에 올려주셔서, 무슨 이야기인가 했는데요.

 

그러니까, 제가 이해한 바로는 meta 데이터를 크롤링하려고보니, meta 데이터가 없는 웹사이트가 있다라는 것이지요? 

 

우선 meta 데이터는 웹사이트 제공자가, 자신의 사이트를 잘 설명해서, 구글/네이버등의 검색 사이트에서

검색이 잘 되도록 임의로 넣는 데이터이거든요.

그런데, 대부분 meta 데이터를 상세히 넣지 않는 경우도 많습니다. 어차피 웹사이트를 표현하는데,

꼭 필요한 데이터가 아니니까요.

 

그래서, meta 데이터를 가져오기 위해, 크롤링 기술을 사용하는 것은 적합한 기술로 보여요.

그런데 모든 사이트가 meta 데이터가 있는 것은 아니기 때문에, meta 데이터만 가지고, 미리보기를 구현하는 것은 조금 애매할 수 있지 않을까 생각합니다. 특히 meta 데이터도 여러 값들이 있고, 대부분 꼭 넣어야 하는 값이라는게 meta 는 없다보니, 각 사이트마다 다른 값들을 넣을 수 있어서, 이를 기반으로 미리보기를 구현하기가 쉬워보이지는 않습니다.

 

감사합니다.

sc님의 프로필

sc

질문자

2022.06.13

답변 감사합니다.! 

 

그렇다면 url을 입력하면 자동으로 미리보기 기능을 구현하는 플랫폼(Ex. 페이스북, 카카오톡, 구글 킵 등)은 모두 각 사에서 미리보기 구현을 위해 meta값 외 적절한 값을 파싱하는 크롤러를 scrapy로 구현하고 있다고 볼 수 있나요?

 

전 이걸 만들어보려고 해서 자꾸 본 강의로 이걸 만들어 보려하다 보니 관심이 가네요

 

아, 최고의 강의라고 써두고 그 이유를 기입하지 않았네요. 미리보기 기능을 크롤링으로 구현해보려고 웹상에 무료로 공개된 많은 강의들을 들으며 시간을 보냈으나, 본 강의와 고급 크롤링 강의를 들으면서  '진작 들을껄' '돈값한다'라는 생각을 엄청 했습니다.

 

저같은 초보도 이해하기 쉽게, 그러나 대충 넘어가지 않고 꼼꼼하게 알려주셔서 감사합니다. 강의자료만 하더라도 정말 노력이 많이 들어간걸 알 수 있네요.