[お知らせ] 本講義の実習環境としてクラウドベースで無料提供されていたDatabricks Community Editionは、新規登録ができなくなりました。そのため、実習環境はローカルSparkとJupyter環境に2025年12月5日を基準に変更されることをお知らせいたします。
ローカル環境への変更に伴う実習コードの変更は一部に限定されているため、セクション1からセクション10に該当するほとんどの講義動画はDatabricks Communityで既存に録画された動画がそのまま使用されており、主要な変更事項のみローカルSparkでの実習動画として新たに講義が構成されました。さらにセクション11からはすべてローカルSparkでの実習動画として講義が2026年1月15日まで新規構成される予定ですので、講義選択時にご参照ください。
データ分析 + 特徴量エンジニアリング + ML実装、
3つのスキルを一度に身につけましょう。
Apache Sparkと
機械学習の出会い。
オープンソース大容量分散処理ソリューションの最強者であるApache Spark(アパッチスパーク)とMachine Learningが出会いました。
国内の多くの大企業や金融機関では、Apache Sparkを活用して大容量データを分析し、機械学習モデルを構築しています。Sparkは分散データ処理フレームワークをベースにしているため、少なくとも数台から多くて数十台のサーバー上で容量を拡張しながら大容量データを処理し、MLモデルを作成することができます。そのため、1台のサーバーでのみ機械学習モデルの実装が可能なscikit-learnの限界を超えることができます。
データ加工・分析にも長けた
機械学習のエキスパートへと
成長させます。
「Spark機械学習完全ガイド - Part 1」講座は、Spark(スパーク)で機械学習モデルを実装する方法を習得するだけでなく、データ加工と分析にも長けた機械学習エキスパートへと皆さんを成長させます。
真のマシンラーニング専門家として成長するためには、単にMLの実装能力だけでなく、業務データをどのように加工し組み合わせてMLモデルを作り出す能力も非常に重要です。そのため、実務で大容量データ処理に最も多く使用されるSQLを活用してデータを加工する方法と業務ドメイン分析に基づいたデータ分析技法を実習を通じて身につけていただきます。
詳細な理論説明と実習を通じて、データ加工・分析およびML実装能力を養えるように構成しました。
皆さんが直面する問題を
解決いたします。
Sparkベースで機械学習モデルを実装するのは容易ではありません。それはまさにSparkアーキテクチャの特殊性に基づいた独特な機械学習APIとフレームワーク、そしてSQLに基づいたデータ処理など、既存のデータサイエンティストや機械学習専門家たちが経験したことのない多くの問題に直面するためです。
本講義、Spark機械学習完全ガイドを通じて、皆さんが直面する問題を解決する能力を養っていただきます。
「スパーク機械学習完全ガイド - Part 1」講座の前半部は
講義の前半部は、SparkのMachine Learning Frameworkを構成する様々な要素であるDataFrame、SQL、Estimator、Transformer、Pipeline、Evaluatorなどについて、詳細な理論説明と豊富な実習で構成されています。これを通じて、皆さんはSparkでMLモデルを簡単かつ迅速に実装できるようになるでしょう。
また、SparkでXGBoostとLightGBMを使用する方法、ベイズ最適化に基づくHyperOptを利用してハイパーパラメータをチューニングする方法について詳しく説明いたします。
「Spark機械学習完全ガイド - Part 1」講座の後半部は
現在講義の後半部はKaggleのInstacart Market Basket Analysis競技大会の実習で構成されていますが、Instacart Market Basket Analysis競技大会がKaggleから削除されたことに伴い、KaggleのHome Credit Default Risk(住宅債務予測)競技大会の実習に変更される予定です(2026年1月15日までに完了予定)
難易度の高いコンペティションであるKaggleのHome Credit Default Riskコンペティションのモデル実装を通じて、皆さんの実践的なデータ加工・分析能力と機械学習モデル実装能力を同時に向上させます。
このデータセットを通じて、SQLベースで業務データをどのように加工・分析し、Feature Engineeringを実行するか、また業務において分析ドメインをどのように導出するか、そしてこのように導出されたFeatureを基にどのようにモデルを生成するかについて、詳しく学ぶことになります。
- 本講義の実習コードはすべてPythonベースで作成されています。Scalaは扱いませんので、講義選択前にご参照ください。
実習環境を
ご確認ください。
本講義はDockerを活用してローカルSparkとJupyterベースで実習環境を構成します。ローカルPCにDocker Desktopをインストールして実習環境を構成し、Dockerを知らなくても実習環境の構築に全く問題がないように講義を構成しました。
講義の実習コードと講義説明資料は「実習コードと説明資料のダウンロード」からダウンロードできます。
事前知識が
必要な講義です。
本講義は、受講生の皆様がPythonマシンラーニング完全ガイドの5章(回帰)またはそれに準ずる知識をお持ちであること、またSQLに関する非常に基本的な部分はご存知であることを前提として構成されておりますので、講義選択の際は上記事項をご参照ください。
Sparkは基本的な部分をご存知であれば良いですが、知らなくても講義についていくのに問題はないでしょう。
先行講義をご確認ください!
Python機械学習完全ガイド
理論中心の機械学習講座はもうやめて、
機械学習の核心概念から実践力まで簡単かつ正確に。
知識共有者のインタビューが気になる方は? (クリック)