実践しながら学ぶクローリングマスター withデータ工房
Pythonクローリングマスター。これ一冊でインストールから応用まで一気に。 実際に活用するのに必ず必要な内容だけをぎっしり詰め込みました。
Netflixセクション情報変更ガイド
ネットフリックスサイト改編で、タイトル部分タグが変更されました。
その投稿の下に編集コードを追加します。
section_title = section.select('h3')[0].text #変更前)
section_title = section.select('h2')[0].text # 修正) セクションタイトル部分タグの変更
-----------------------
2022.01.01 追加修正
Netflixから画像ファイル、プログラムURL部分を取得するとき
情報がないか、異なる情報が含まれている場合があり、このとき、整理するコードを追加しました。
画像ファイル情報の場合
1. 画像ファイル情報を含む場合、
2. ファイル以外の形式(data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==) に含まれている場合(画面には画像は表示されません)
3. 画像ファイル情報自体がない場合がありますね。
上記のステップごとに1つずつチェックし、探している情報でない場合は、次の情報で整理するように
try、except構文、if条件文などを活用して以下のように修正しました。
-------------------------------------------------- ----------------------
try:
program_img = program.select('img')[0]['src']
if 'https' not in program_img:
program_img = ''#画像ファイルの場所が表示されない場合(画面に表示されない場合)は空白で入力する
except:
program_img = ''#画像情報自体がない場合は空白で入力
-------------------------------------------------- ----------------------
プログラムリンク部分もタグに情報がない場合があり、ない場合は空白が入力されるように整理しました。
-------------------------------------------------- ----------------------
try:
program_link = program.select('a')[0]['href']
except:
program_link = ''#リンクアドレスがない場合は空白で入力
-------------------------------------------------- ----------------------




