Thumbnail
데이터 사이언스 데이터 분석

따라하며 익히는 크롤링 마스터 with데이터공방 대시보드

(4.5)
4개의 수강평 ∙  127명의 수강생

44,000원

지식공유자: 데이터공방
총 48개 수업 (11시간 11분)
수강기한: 
무제한
수료증: 발급
난이도: 
입문
-
초급
-
중급이상
지식공유자 답변이 제공되는 강의입니다
폴더에 추가 공유
데이터공방 프로필
2023년 Updated - 크롬 버전 자동업데이트 사용 팁 추가
데이터공방 2023.01.31

 

2023 첫 업데이트로,

크롬 브라우저 버전 자동관리 라이브러리 사용 팁을 추가하였습니다.

(기존 chromedriver 설치하기 세션을 변경하였습니다)

image

해당 내용 블로그에서 살펴보기

 

이 외에도, 라이브러리 업데이트 되면서 변경되었던 부분들 반영하여 설명하는 영상,

그리고 다른 강의들도 준비 중에 있습니다. 참고해주세요

데이터공방 프로필
크롤링 명령어 변경 find_elements_by_css_selector
데이터공방 2022.07.05

 

selenium 이 버전을 업데이트 하면서 

find_elements_by_css_selector ( )  명령어를 삭제하였습니다. 

find_elements( 'css selector' , )  로 사용이 가능하니 해당부분 코드 변경하여서 사용하시기 바랍니다. 

 

상세 내용은 블로그에 정리해두었습니다. 

 

데이터공방 프로필
넷플릭스 섹션 정보 변경 안내
데이터공방 2021.12.30

넷플릭스 사이트 개편으로,  제목 부분 태그가 변경되었습니다.

해당 게시물 아래에 수정 코드 추가해두겠습니다. 

 

section_title = section.select('h3')[0].text    #변경전)

section_title = section.select('h2')[0].text   # 수정) 섹션 제목 부분 태그 변경

 

 

-----------------------

2022.01.01 추가 수정

 

넷플릭스에서 이미지 파일, 프로그램 URL 부분을 가져올 때 

정보가 없거나, 상이한 정보가 들어있는 경우가 있어  이 때, 정리하는 코드를 추가하였습니다. 

이미지 파일 정보인 경우

1. 이미지 파일 정보를 포함하는 경우,

2. 파일이 아닌   다른 형태(data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==) 로 들어있는 경우(화면상에는  이미지 표시되지 않음)

3. 이미지 파일 정보 자체가 없는 경우가 있네요.

위 단계별로 하나씩 점검하면서,  찾는 정보가 아닌 경우 그 다음 정보로 정리하도록 

try, except 구문,   if 조건문 등을 활용하여  아래와 같이 수정했습니다.

 

------------------------------------------------------------------------

        try:

            program_img = program.select('img')[0]['src']

            if 'https' not in program_img:

                program_img = ''  # 만약, 이미지 파일 위치가 표시되지 않는 경우(화면에 보이지 않는 경우)는 빈 칸으로 입력하기

        except:

            program_img = ''  # 이미지 정보 자체가 없는 경우 빈 칸으로 입력

------------------------------------------------------------------------

 

프로그램 링크 부분도 태그에 아예 정보가 없는 경우가 있어, 없을 경우 빈칸이 입력되도록 정리하였습니다.

------------------------------------------------------------------------

        try:

            program_link = program.select('a')[0]['href']

        except:

 

            program_link = ''  # 링크 주소가 없는 경우는 빈 칸으로 입력 

------------------------------------------------------------------------

데이터공방 프로필
넷플릭스 섹션 제목 크롤링 코드 변경
데이터공방 2021.10.01


updated 2021.09.30 

넷플릭스 사이트 개편으로  섹션 타이틀 부분의 태그가 변경되었습니다. 

그에 따라, 크롤링 코드도 변경 필요합니다. 

 

[변경전]

section_title = section.select('h1')[0].text

[변경후]

section_title = section.select('h2')[0].text

 

※ 사이트는 지속적으로 조금씩 변하니,  코드 그 자체 보다는 

제가 진행하면서 설명드리는 접근 방법과 BeautifulSoup  select( ) 명령어 사용 방법을 익히시는 것이 더 좋습니다. 

(이미 많은 분들이,,  스스로 찾아서 진행을 하셨네요 ^^)

 

 

 

※ 섹션 제목 부분 태그 이미지

 

 

 

 

 

 

 

 

 

 

데이터공방 프로필
유튜브 댓글 크롤링 업데이트
데이터공방 2021.09.02

유튜브 댓글 수집하는 부분 변경 안내 드립니다. 

유튜브 댓글 수집시 현재는 아래 로직으로 진행됩니다. 

1. 유튜브 전체 댓글 수 가져오기

2. 최대 횟수(500회)까지 진행하면서, 댓글 스크롤 내리기  → 전체 댓글 수와 일치할 경우 멈추기

제일 처음 가져오는 전체 댓글 수가  대댓글 수만 가져오고, 

아래에서 수집하는 댓글 수는 일반 댓글만 카운트 하는 문제가 있었습니다. 

두 가지 방법으로 접근 가능한데

1. 모든 대댓글을 가져오고 숫자로 카운트 하는방법

이 때에는, "답글 보기" 버튼을 하나씩 클릭하면 대댓글 정보 수집이 가능합니다. 

이렇게 할 경우에는, 하나씩 클릭하고 결과를 기다리는 대기시간도 걸리게 되어 대량의 데이터를 수집하는데 

더 많은 시간이 걸리게 되네요.  

2. 댓글 스크롤을 내리다가,  기존 댓글 수와 차이가 없을 경우 멈추기. 

스크롤을 내려가면서, 댓글 수를 앞서 정리했던 수와 계속 비교를 하고

스크롤 내려도 댓글수가 늘어나지 않는다면 완료되었다 판단.  이 과정을 멈추는 것입니다. 

두 방법의 장단점이 있지만   두 번째 방법이 더 깔끔한 것 같아,  

이 방법으로 가이드를 드리겠습니다. 

해당 강의 자료 게시글(섹션5, 유튜브댓글 수집하기2) 에 코드 자료 업로드 하도록 하겠습니다. 

데이터공방 프로필
[수강평이벤트] 수강평을 남겨주시면, 1:1 온라인 상담권을 드립니다.
데이터공방 2021.07.15

강의를 진행하면, 수강생분들도 도움이 되겠지만

강사인 저도 굉장히 많이 배우게 됩니다. 

주로 오프라인이나, 온라인이더라도 실시간 강의를 위주로 하고 있는데

온라인 영상 강의는 어떻게 전달되는지 궁금하네요. 

 

더 좋은 강의를 준비하고, 스스로를 돌아보기 위해 이벤트를 진행합니다.

강의평가 / 수강 후기를 남겨주세요. 

남겨주신 분들께는

궁금하신 부분에 대한 설명 및 답변,   피드백, 면담 등을 해결할 수 있도록 

1:1 온라인 상담권(30분) 을 전달 드리겠습니다. 

 

수강평을 작성하신 분은  제 메일(datago0ba0@gmail.com) 으로 말씀주세요. 

이후 양쪽 다 진행 가능한 시간 정해서 진행하겠습니다. (진행은 Zoom 을 이용해서 할께요)

 

※ 이벤트 마감되었습니다

데이터공방 프로필
유튜브 크롤링 업데이트
데이터공방 2021.05.03

유튜브 크롤링 과정을 추가하고 있습니다. 

그동안 다른 일들이 너무 많아 업데이트를 거의 하지 못했네요. 

요청이 많이 들어온 부분들 부터 순차적으로 작업하여 업로드 진행하겠습니다. 

유튜브 기다리신 분은ㅠ   너무 많이 기다리게 해서 죄송합니다. 

추가로 문의사항 있는 부분들은 말씀주세요.  고맙습니다. 

데이터공방 프로필
인스타그램 크롤링 과정 추가 되었습니다!!
데이터공방 2021.02.19

인스타그램 크롤링 과정이 추가되었습니다. 

이후에도 유형별로 정리하여 실습 사이트를 추가할 예정입니다. 

관심있거나 어려움을 겪는 부분이 있다면 메일로 말씀주세요   datago0ba0@gmail.com

강의 주제 선정에 참고하겠습니다. 고맙습니다. 

추가할 강의는 가능하면 기존에 사용하지 않는 방법/함수를 꼭 사용해야 하는

사이트들을 활용할 예정입니다.