강의

멘토링

로드맵

Inflearn brand logo image
Data Science

/

Data Analysis

Python無料講義(活用編3) - Webスクレイピング(5時間)

HTML基礎から固守たちのスクレイピング秘法まで、すべてお知らせします。 この映像一つで十分です。

  • nadocoding
Web Crawling
Web Scraping
Selenium
Python
Thumbnail

学習した受講者のレビュー

こんなことが学べます

  • クパン、Googleムービー、ネイバーなど各種サイトスクレイピング戦略

  • 動的にロードされるページも

  • Seleniumを活用したWeb自動化の基礎知識まで

面白くて便利なウェブスクレイピング、
様々なデータを私の手で扱って手に入れよう!

📣ご案内いたします。
この講義で扱うクパン、ネイバーウェブトゥーン、ティーストーリーなど、ウェブスクレイピングの対象サイトは、講義の撮影後に継続的な更新や改編のためにページが変更されたため、一部の機能はもはや利用できなくなった部分もあります。ご検討いただき、学習をお願いし、講義でお見せするすべての実習に従うのではなく、当時のページ状況に応じてどのようにアクセスできるかについての理解度を高める目的で講義を活用してください。

もしオオカミと七匹の赤ちゃんヤギの話、覚えていますか?

母が家を空にしている間、7匹の赤ちゃんのヤギだけが残っていますが、悪いオオカミが訪れます。
「私のお母さん、ドアを開けて」
ところがある赤ちゃんヤギが「私たちのお母さんの声はそんなに怖くない!」と扉を開けてくれません。

再び訪れたオオカミが今回はきれいな声で
「お母さんって、ドアを開けてくれますか?」
しようとした赤ちゃんヤギが尋ねます。

「手を差し出してみてください」
それから、私は暗い髪に爪が鋭い足を見ています
「私のお母さんの手はとても白くなっています」とドアを開けてくれません。

真っ白な小麦粉をいっぱい埋めて再び現れたオオカミの足を見て、
今回はヤギたちが騙されて扉を開けてくれて堕落します(結末スポはしません 😆😆)

さて、ここでオオカミはヤギの家を掘るために3回試みます。

1.ママという嘘
2.ママという嘘+きれいな声
3.ママという嘘+きれいな声+真っ白な小麦粉を埋めた足

結局3回目で家を掘ってしまいますね。


Webスクレイピング(Web Scraping)?

序論が長かったのですが、ウェブスクレイピングはまさにこのような過程が必要です。

ところがウェブスクレイピングでは実はヤギとオオカミの立場が少し変わります。

私たちが穏やかな赤ちゃんオオカミになり、ターゲットサーバーが落ち込んでいる筋肉質の大型で角質のママヤギになります。

そのためにはいくつかのアプローチが活用されていますが、私の講義で上のオオカミの戦略を順番に一つずつすべて説明します。

確かに、 WebスクレイピングWebクロールは少し異なります。

ウェブクロールは、
アジェ(私を含む)はアシルテンデ昔に「本の本を読んでみましょう」というプログラムがありました。ですね(「黄金本」の説明は論外とさせていただきます^^)

この時、皆さんがゲストならどうしますか?
おそらくこれを問わず、模造本をできるだけ早く入れようとするでしょう。

一方、ウェブスクレイピングは、試験前日に先生が白い紙を一枚与えながら、皆さんがどんな内容でも手書きをしてくれと言います。

それでは、おそらく授業で学んだ重要な内容や覚えにくい公式、英語の単語のようなものを参考にしやすい形にすることでしょう。


言い換えれば、ウェブスクレイピング、ウェブサイトから私が望むデータを抽出し、私が望む形に加工する行為を指します。

たとえば、ネイバーウェブトゥーンページにあるすべての漫画のタイトルやリアルタイムランキングトップ1-10を取得したり、

クパンのようなショッピングモールでぴったり私が欲しい条件に合う商品だけリンクと一緒に持ってくるとか、
例では

  • トップ1〜5ページ内
  • レビューが100件以上
  • 評価が4.5点を超えて
  • Apple製品を除く
  • 広告商品を除く

リストだけをインポートするように練習しました。
(絶対Appleが嫌だったりしたことではなく、ただ練習用に過ぎない😊😊)

イメージをダウンロードする練習もしてみます。

私が映画をすごく好きなのにどんな映画を見ればいいのか決定障害があり、ただ最近5年間観客数が最も多い上位5つの映画に対して合計25の映画ポスター画像をダウンロードしておいてその中に何か選択しようとします。私は好きなように保存できるようになります。

そして、一部のデータはインポートしてからExcelで管理したり、追加作業をしなければならない時もあります。

ところが、このようなサイトでは人ではなく自動化ボットが情報を抜くことを腐らないようにすることもできます。

しかし、いつものように、私たちは道を見つけるでしょう。

時にはログインが必要な場合や、ウェブページで何かをする必要があります。

たとえば、Googleムービーページで人気のチャートムービーのうち、現在割引中のムービー情報だけをインポートしたいのですが、ここにいるユーザーがスクロールしなければ、次のリストが呼び出されます。

または、ネイバー航空券は、私が希望するスケジュールを入力し、航空券照会ボタンをクリックすると、しばらくロードをしてからリストが表示されることもあります。

Seleniumを書くときも、このような部分については、エラーを減らすために、より繊細なアプローチが必要です。

Webスクレイピングを学ぶには事前知識が必要ですが、基本的にWebについて理解する必要がありますので、簡単にHTML、XPathについて勉強し、Chrome(Google Chrome)を活用するので、Chromeと開発者ツールの利用方法についても説明します。過ぎると様々なページに対して多くの実習が行われますので少しだけよく参考に従って来ていただければ幸いです。


多くの内容を勉強してみると整理できないかもしれないかと WrapUp 時間があります。

もちろん今回もクイズをいたします。
次の不動産物件で検索した結果情報を直接あなたがスクレイピングしてくる時間を持ってみましょう。

最後にプロジェクトを進めていきます。
私は毎朝起きて天気を確認し、主要なニュースやIT分野のニュースを読むのを簡単にするプログラムを作るつもりです。

すごく楽ですよね?
リンクをクリックすればすぐにニュース記事を読むこともできるようになります。


Pythonの基礎文法を学び、実力を築きたい方は、今すぐWebスクレイピングを学びましょう。
この映像一つで十分です。
さらに、私もコーディングは「無料」です。

Designed by freepik
https://www.freepik.com

こんな方に
おすすめです

学習対象は
誰でしょう?

  • Pythonを学びましたが、どこで活用するのか心配です。

  • Webで必要なデータを1つ1つコピー貼り付けている場合

  • ショッピングモールのデータを数秒ですべてインポートしたい場合

前提知識、
必要でしょうか?

  • Pythonの基礎

こんにちは
です。

100,746

受講生

3,146

受講レビュー

915

回答

4.9

講座評価

11

講座

유튜브에서 코딩 교육 채널을 운영하고 있는 나도코딩입니다.
누구나 쉽고 재미있게 코딩을 공부하실 수 있도록 친절한 설명과 쉬운 예제로 강의합니다.
코딩, 함께 하실래요? 😊

🧡 유튜브 나도코딩
🎁 코딩 자율학습 나도코딩의 파이썬 입문
📚 코딩 자율학습 나도코딩의 C 언어 입문

カリキュラム

全体

39件 ∙ (5時間 26分)

講座掲載日: 
最終更新日: 

受講レビュー

全体

158件

5.0

158件の受講レビュー

  • iambyunghyun님의 프로필 이미지
    iambyunghyun

    受講レビュー 8

    平均評価 4.9

    5

    100% 受講後に作成

    Mức quyên góp tài năng thực sự

    • skdbstjd0115610님의 프로필 이미지
      skdbstjd0115610

      受講レビュー 4

      平均評価 5.0

      5

      31% 受講後に作成

      • jeein1199님의 프로필 이미지
        jeein1199

        受講レビュー 2

        平均評価 5.0

        5

        31% 受講後に作成

        Giảng viên giải thích từ từ và tỉ mỉ để ngay cả người mới bắt đầu học Python cũng có thể hiểu dễ dàng, nên nghe bài giảng không hề có gánh nặng gì. Cảm ơn anh/chị!

        • sangcheol259563님의 프로필 이미지
          sangcheol259563

          受講レビュー 2

          平均評価 5.0

          5

          31% 受講後に作成

          Hãy giải thích cho dễ hiểu nhé

          • surkamiru2873님의 프로필 이미지
            surkamiru2873

            受講レビュー 13

            平均評価 5.0

            5

            62% 受講後に作成

            Cảm ơn bạn vì bài giảng dễ hiểu. Thật tuyệt khi có thể học lại Python.

            無料

            nadocodingの他の講座

            知識共有者の他の講座を見てみましょう!

            似ている講座

            同じ分野の他の講座を見てみましょう!