Python無料講義(活用編3) - Webスクレイピング(5時間)
HTML基礎から固守たちのスクレイピング秘法まで、すべてお知らせします。 この映像一つで十分です。
受講生 5,582名
難易度 初級
受講期間 無制限
講義エラー訂正
こんにちは、私もコーディングです。 ^^
講義撮影時点以降、Webページに変更された部分がありましたのでご案内いたします。
下記の内容を参考にしてください。
1. "Thistory"は、UserAgentを変更しなくても正常にhtmlを受け取ります。
(関連講義:User Agent)
2. 「ネイバー」はログインしようとすると自動入力防止文字入力ページが表示されます。バイパス方法でJavaScriptを利用する方法が紹介されたリンクを参照してください。
https://jaeseokim.github.io/Python/python-Seleniumを-利用した-ウェブ-クロール-Naver-login-後-購読-Feed-クロール/
(関連講義:Selenium深化(ネイバーログイン))
3. 「クパン」の講義内容確認の結果、一部の項目がウェブからアクセスしたときとは少し違うようになります。確認結果画面の約80%は正常、20%はページに存在しない値を取得します。 (たぶん次のページに出てくる内容かもしれません) また、80%のアイテムもWebページとは異なり、順番が少し混乱しているようです。 requestsだけを使ってインポートしたときにクパンから返す値に違いがあるようですが、seleniumを介した結果を比較してみる必要があるようですね。授業時間に結果内容について全数検査をしてみようと思っていないので、内容に誤りがあったこと、心よりお詫び申し上げます。
(関連講義:BeautifulSoup4活用2(クパン))
4.「プロジェクト」の講義内容のうち、ネイバーニュースをインポートする際に500 Server Errorが出ています。この時は requests に headers であなたの PC の user-agent を入れてください。
(例)
def create_soup(url):
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}
res = requests.get(url, headers=headers)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")
return soup
(関連講義:ヘッドライン/ITニュース(ネイバーニュース))
ありがとうございます。
無料




