데이터 사이언스

/

데이터 분석

따라하며 익히는 크롤링 마스터 with데이터공방

파이썬 크롤링 마스터. 이것 하나면 설치부터 응용까지 한번에. 진짜 활용하는데 꼭 필요한 내용만 꾹꾹 눌러 담았습니다.

(4.5) 수강평 4개

수강생 130명

Thumbnail

넷플릭스 섹션 정보 변경 안내

넷플릭스 사이트 개편으로,  제목 부분 태그가 변경되었습니다.

해당 게시물 아래에 수정 코드 추가해두겠습니다. 

 

section_title = section.select('h3')[0].text    #변경전)

section_title = section.select('h2')[0].text   # 수정) 섹션 제목 부분 태그 변경

 

 

-----------------------

2022.01.01 추가 수정

 

넷플릭스에서 이미지 파일, 프로그램 URL 부분을 가져올 때 

정보가 없거나, 상이한 정보가 들어있는 경우가 있어  이 때, 정리하는 코드를 추가하였습니다. 

이미지 파일 정보인 경우

1. 이미지 파일 정보를 포함하는 경우,

2. 파일이 아닌   다른 형태(data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==) 로 들어있는 경우(화면상에는  이미지 표시되지 않음)

3. 이미지 파일 정보 자체가 없는 경우가 있네요.

위 단계별로 하나씩 점검하면서,  찾는 정보가 아닌 경우 그 다음 정보로 정리하도록 

try, except 구문,   if 조건문 등을 활용하여  아래와 같이 수정했습니다.

 

------------------------------------------------------------------------

        try:

            program_img = program.select('img')[0]['src']

            if 'https' not in program_img:

                program_img = ''  # 만약, 이미지 파일 위치가 표시되지 않는 경우(화면에 보이지 않는 경우)는 빈 칸으로 입력하기

        except:

            program_img = ''  # 이미지 정보 자체가 없는 경우 빈 칸으로 입력

------------------------------------------------------------------------

 

프로그램 링크 부분도 태그에 아예 정보가 없는 경우가 있어, 없을 경우 빈칸이 입력되도록 정리하였습니다.

------------------------------------------------------------------------

        try:

            program_link = program.select('a')[0]['href']

        except:

 

            program_link = ''  # 링크 주소가 없는 경우는 빈 칸으로 입력 

------------------------------------------------------------------------

댓글