강의

멘토링

커뮤니티

Data Science

/

Data Analysis

実践しながら学ぶクローリングマスター withデータ工房

Pythonクローリングマスター。これ一冊でインストールから応用まで一気に。 実際に活用するのに必ず必要な内容だけをぎっしり詰め込みました。

難易度 入門

受講期間 無制限

  • datago0ba0
Python
Python
Web Crawling
Web Crawling
Big Data
Big Data
Python
Python
Web Crawling
Web Crawling
Big Data
Big Data

Netflixセクション情報変更ガイド

ネットフリックスサイト改編で、タイトル部分タグが変更されました。

その投稿の下に編集コードを追加します。

 

section_title = section.select('h3')[0].text #変更前)

section_title = section.select('h2')[0].text # 修正) セクションタイトル部分タグの変更

 

 

-----------------------

2022.01.01 追加修正

 

Netflixから画像ファイル、プログラムURL部分を取得するとき

情報がないか、異なる情報が含まれている場合があり、このとき、整理するコードを追加しました。

画像ファイル情報の場合

1. 画像ファイル情報を含む場合、

2. ファイル以外の形式(data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==) に含まれている場合(画面には画像は表示されません)

3. 画像ファイル情報自体がない場合がありますね。

上記のステップごとに1つずつチェックし、探している情報でない場合は、次の情報で整理するように

try、except構文、if条件文などを活用して以下のように修正しました。

 

-------------------------------------------------- ----------------------

try:

program_img = program.select('img')[0]['src']

if 'https' not in program_img:

program_img = ''#画像ファイルの場所が表示されない場合(画面に表示されない場合)は空白で入力する

except:

program_img = ''#画像情報自体がない場合は空白で入力

-------------------------------------------------- ----------------------

 

プログラムリンク部分もタグに情報がない場合があり、ない場合は空白が入力されるように整理しました。

-------------------------------------------------- ----------------------

try:

program_link = program.select('a')[0]['href']

except:

 

program_link = ''#リンクアドレスがない場合は空白で入力

-------------------------------------------------- ----------------------

コメント