인프런 영문 브랜드 로고
인프런 영문 브랜드 로고
데이터 사이언스

/

데이터 분석

따라하며 익히는 크롤링 마스터 with데이터공방

파이썬 크롤링 마스터. 이것 하나면 설치부터 응용까지 한번에. 진짜 활용하는데 꼭 필요한 내용만 꾹꾹 눌러 담았습니다.

(4.5) 수강평 4개

수강생 130명

Thumbnail
새소식 목록
관리
작성

넷플릭스 섹션 정보 변경 안내

넷플릭스 사이트 개편으로,  제목 부분 태그가 변경되었습니다.

해당 게시물 아래에 수정 코드 추가해두겠습니다. 

 

section_title = section.select('h3')[0].text    #변경전)

section_title = section.select('h2')[0].text   # 수정) 섹션 제목 부분 태그 변경

 

 

-----------------------

2022.01.01 추가 수정

 

넷플릭스에서 이미지 파일, 프로그램 URL 부분을 가져올 때 

정보가 없거나, 상이한 정보가 들어있는 경우가 있어  이 때, 정리하는 코드를 추가하였습니다. 

이미지 파일 정보인 경우

1. 이미지 파일 정보를 포함하는 경우,

2. 파일이 아닌   다른 형태(data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==) 로 들어있는 경우(화면상에는  이미지 표시되지 않음)

3. 이미지 파일 정보 자체가 없는 경우가 있네요.

위 단계별로 하나씩 점검하면서,  찾는 정보가 아닌 경우 그 다음 정보로 정리하도록 

try, except 구문,   if 조건문 등을 활용하여  아래와 같이 수정했습니다.

 

------------------------------------------------------------------------

        try:

            program_img = program.select('img')[0]['src']

            if 'https' not in program_img:

                program_img = ''  # 만약, 이미지 파일 위치가 표시되지 않는 경우(화면에 보이지 않는 경우)는 빈 칸으로 입력하기

        except:

            program_img = ''  # 이미지 정보 자체가 없는 경우 빈 칸으로 입력

------------------------------------------------------------------------

 

프로그램 링크 부분도 태그에 아예 정보가 없는 경우가 있어, 없을 경우 빈칸이 입력되도록 정리하였습니다.

------------------------------------------------------------------------

        try:

            program_link = program.select('a')[0]['href']

        except:

 

            program_link = ''  # 링크 주소가 없는 경우는 빈 칸으로 입력 

------------------------------------------------------------------------

댓글