BEST

Data Engineering

Kafka & Spark を活用したリアルタイムデータレイク

Name: Kafka & Spark を活用したリアルタイムデータレイク
Price: 132000 KRW
Rating: 4.9 (23 reviews)

初心者のための Kafka & Spark リアルタイムパイプライン入門講座。コアコンセプトからアーキテクチャまでマスターするためのオールインワン講座です。

（4.9）受講レビュー 23件

受講生 301名

難易度初級

受講期間 無制限

hyunjinkim

Kafka

Apache Spark

pyspark

data-lake

Kafka

Apache Spark

pyspark

data-lake

学習した受講者のレビュー

4.9

5.0

:찬영

100% 受講後に作成

非常に完成度の高い講義でした。感動そのものです普通、講義を聞いていると、同じようにやったのになぜできないんだ？という状況が少なくないと思いますが、そういったことなくスムーズに完講しました。私は講義を選択するにあたり、まず最初にカリキュラムを見て、価格と講義時間を比較します。これまで価格の割に、あまりにも表面的な講義が多かったのですが、 현진님의 kafka&spark 講義を聞けば、今後のプロジェクトでも十分に完成度の高い成果物を出すことができると断言します！大変勉強になりました、ありがとうございます！ (シーズン2はいつ頃出るのでしょうか…？)

5.0

램쥐뱅

100% 受講後に作成

期待以上によく整理されたカリキュラムと内容で多くのことを学んで帰ります。丁寧に講義を作ってくださったという感じをとても受けました。後続講義を待っています。ありがとうございます。

5.0

역시자네야

10% 受講後に作成

信頼できる現進先生。強くお勧めします。 airflow講義から知ることになりましたが、他の講義とは異なる差別化ポイントが多いです。概念からアーキテクチャ設計まで、使用理由と原理を説明してくださるのが良かったです。実習も楽々そのものです。回答まで常に親切につけてくださいます。まだ受講初期ですが完走してみます〜天気が暑いですが、健康に気をつけてください。

受講後に得られること

Github Actionsと AWS Code Deployで CI/CD 実装
Kafka Broker, Confluent Producer & Consumer
Prometheus & Grafana を利用した Kafka Dashboard モニタリング
Catalog 管理のための Spark & Hive Metastore
Spark Streamingを利用した実践プロジェクト実装
Kafka & Spark, Zookeeper & Yarn の可用性テスト

リアルタイムデータパイプライン、なぜ学ぶべきなのか？

リアルタイムデータパイプライン構成を通じて迅速な分析と意思決定を支援することは、選択ではなく必須です。

リアルタイム個人化マーケティング & レコメンデーション
リアルタイムトレンド分析
リアルタイムセキュリティ脅威検知および対応

特にAIが基本となった昨今では、AIを活用したリアルタイム推薦、検知、翻訳など無限の事例が存在し、このようなアーキテクチャ実装のためにますますリアルタイムデータパイプラインが求められています。

この講義の特徴

📌ローカルマシン上の単一構成はNo！トレンドはクラウドです。AWS Cloudを活用します。

📌 CI/CDは基本ですよね？GitHub ActionsとAWS Code Deployを通じてCI/CDを構成します。

📌 基本からゆっくりと、しかし実習と課題を通じて講義内容が内在化できるようにお手伝いします。

📌サーバークラスター構成からリアルタイムパイプライン構成および可用性テストまでAll in One構成

受講後には

Kafka Brokerサービスの基本原理の理解、可用性保証を理解し、これを基盤としてBrokerサービスを扱えるようになります。
Kafka Producer/Consumerの基本原理から高級オプションまで理解し、大容量環境でのパフォーマンスと整合性間のTrade-offの理解を通じて堅牢なApplicationを作成できるようになります。
Sparkが性能を発揮できる条件について理解し、性能を最適化できる技法を基盤としてApplicationを作成できるようになります。
AWS S3、Glue、Athenaなど複数のサービスとSparkサービスとの連携を通じて、パイプラインの多様性を理解することができます。

Ansibleを利用したInfraセットアップ自動化

これを全部作るのにやることが多すぎるんじゃないかって？

はい、その通りです。とても多いです。

インストールするライブラリも多く、あれこれ設定しなければならないことがとても多いです。何か一つでも合わないとエラーが出ますね🤬

しかし、皆さんはリアルタイムパイプライン実装という重要な内容にのみ注目していただければと思います。

インフラ構成と各種セットアップは、事前に準備されたAnsible Scriptを通じて自動化が進行されます。

Ansible Scriptは下記のgithubアドレスで事前に確認できます。

https://github.com/hjkim-sun/datalake-ansible-playbook-season1

皆さんは上記のgithub repositoryの内容をcloneしてセットアップ過程を簡単に進めることになります。

🚨実習前にご参考ください！

✔ Kafka Client(Producer/Consumer)はPythonで作成します。

Python Kafka Libraryには複数の種類がありますが、その中で最も性能の良いConfluent Kafka Libraryを使用します。Confluent KafkaはJavaに劣らない高い性能を保証するツールとして、Pythonを通じてProducer/Consumerを作成する方法を学びます。

✔ Spark言語もPythonで記述します。

Spark Applicationを作成する際に最もパフォーマンスが良い言語はScalaです。しかし、Sparkのために別途Scala言語を学ぶには確実に負担があります。Python言語ほど大衆的ではなく、ディープラーニング/AI関連ライブラリも相対的に少ないという短所があります。そのため現場ではPythonを利用してSparkプログラムを開発するケースが多いです。特にディープラーニング/AI連携を考慮するならPython言語で作成することは優れた代替案になり得ます。

🚨AWS予想実習費用

実習はAWS Cloudで行われ、実習費用が別途発生します。

✔ 1ヶ月間約40時間使用した場合、約4万円程度のAWS費用が発生します。（為替レート1,430基準）

実習費用の大部分はEC2（コンピューティングサービス）で発生するため、実習・課題後は必ずサーバーインスタンスを停止してください。ただし、その他の費用（サーバーインスタンスに接続されているボリューム（EBS）とEIP）の場合、サーバーインスタンスを停止しても費用が発生します。したがって、完走を早くするほどAWS実習費用は減少します。

✔ サーバーをすべて停止していても、サーバーボリューム費用により月約3万円程度発生します。

したがって、同じ40時間を使用しても1ヶ月ではなく2ヶ月間使用される場合は、3万ウォンが追加されて総額7万ウォン程度のAWS料金が発生することになります。したがって、できるだけ早く完走されることをお勧めします。

✨コミュニケーション

複数のツールと連携する作業が多い講義の特性上、気になる内容や予想外のエラーが発生する場合、Q&A掲示板だけでのコミュニケーションは困難な場合があります。

（経験上、質問が登録されてから私が回答を付けて再確認されるまで3〜4日程度かかるようです）

このようなコミュニケーションの不便さを軽減し、受講された方々に最後まで高品質なサービスを提供するため、Discordチャンネルを運営したいと思います。

https://discord.gg/eTcYzMBxZm

講義に関する内容でも良いし、そうでなくても良いです。些細な話をしても良いです。

円滑なコミュニケーションのための場所ですので、お気軽にお入りください

必須事前知識事項

Pythonの基礎知識

基本的なデータ構造とif/for/while等の基本的な文法。そして関数を作成できる程度の実力
Linuxの基本コマンド

ほとんどのInfra作業はAnsible自動化ツールを通じて進行されます。しかし、Linuxの基本コマンドは知っておく必要があります。（viエディタ、cd/mv/rm等の基本コマンド）
SQL

基本的なSQL知識（SELECT、WHERE、JOIN、GROUP BY、ORDER BYなど）を知っていれば、ついてくるのがずっと楽になります。
（難しいSQLはありません）

推奨事前知識事項

Dockerコンテナ
コンテナを利用してモニタリングツールをセットアップします。コンテナの原理を知っていると役に立ちます。
git
CI/CDのためにgitを活用して直接コードデプロイまで進行します。使用方法はすべて丁寧に説明しますが、知っていればより良いです。
Pythonクラスの理解
実習で進行されるほとんどのPythonプログラムは、クラス構造を通じて構造化が進められます。したがって、クラスおよびオブジェクト指向に対する理解があれば、実習しやすくなります
（知らなくても大丈夫です。全て説明します）

こんな方に
おすすめです

学習対象は
誰でしょう？

Kafka & Spark を学びたい方
リアルタイムパイプラインの実装を学びたい方
データエンジニアとして様々な知識とスキルの開発が必要な方

前提知識、
必要でしょうか？

Pythonの基本概念
SQLに関する基本知識 (Filter, GroupBy, OrderBy程度)
Linux の基本的なコマンドを扱えるレベル

こんにちは
hyunjinkimです。

インフラン認証

1,604

受講生

111

受講レビュー

241

回答

4.9

講座評価

講座

こんにちは。

大手企業でデータ＆AI分野に携わっている17年目の現役エンジニアです。

情報管理技術士を取得して以来、これまで得た知識を多くの人々と共有するためにコンテンツを制作しています。

はじめまして。 :)

Contact: hjkim_sun@naver.com

カリキュラム

全体

113件 ∙ (28時間 23分)

講座資料（こうぎしりょう）:

授業資料

セクション 1．データレイク紹介

4件 ∙ (43分)

セクション 2．データレイク・アーキテクチャ設計

3件 ∙ (24分)

5. データレイクアーキテクチャ設計（ラムダアーキテクチャ）
12:15
6. データレイクアーキテクチャ設計 (カッパアーキテクチャ)
03:50
7. データレイクアーキテクチャ設計
08:46

セクション 3．開発環境設定

3件 ∙ (26分)

8. Gitのインストール
05:55
9. Python&PyCharm インストール
11:58
10. GitHubリポジトリ作成＆接続
08:32

セクション 4．AWS 環境生成

9件 ∙ (1時間 57分)

セクション 5．Kafka セットアップ

7件 ∙ (1時間 55分)

セクション 6．Kafka Producer 作成

9件 ∙ (2時間 17分)

セクション 7．Kafka UIとモニタリング

3件 ∙ (54分)

セクション 8．Kafka Consumer 作り方

7件 ∙ (1時間 54分)

セクション 9．Spark セットアップと基礎

7件 ∙ (1時間 49分)

セクション 10．Spark クラスター構成

5件 ∙ (1時間 21分)

セクション 11．Spark 理解

10件 ∙ (3時間 3分)

セクション 12．Spark SQL

9件 ∙ (2時間 5分)

セクション 13．スパーク・ストリーミング

8件 ∙ (2時間 11分)

セクション 14．ストリーミングプログラム構成

6件 ∙ (1時間 24分)

セクション 15．Dashboard 構成

1件 ∙ (17分)

セクション 16．Spark 性能最適化と問題解決

8件 ∙ (2時間 20分)

セクション 17．スパークスチーミングマスター

6件 ∙ (1時間 21分)

セクション 18．可用性テスト

7件 ∙ (1時間 37分)

セクション 19．終わりに

1件 ∙ (15分)

講座掲載日: 2025/03/06

最終更新日: 2025/12/21

受講レビュー

全体

23件

4.9

23件の受講レビュー

pcy78054921
受講レビュー 1
∙
平均評価 5.0
2025/04/25
修正済み
5
100% 受講後に作成
非常に完成度の高い講義でした。感動そのものです普通、講義を聞いていると、同じようにやったのになぜできないんだ？という状況が少なくないと思いますが、そういったことなくスムーズに完講しました。私は講義を選択するにあたり、まず最初にカリキュラムを見て、価格と講義時間を比較します。これまで価格の割に、あまりにも表面的な講義が多かったのですが、 현진님의 kafka&spark 講義を聞けば、今後のプロジェクトでも十分に完成度の高い成果物を出すことができると断言します！大変勉強になりました、ありがとうございます！ (シーズン2はいつ頃出るのでしょうか…？)
- hyunjinkim
  知識共有者
  2025/05/25
  こんにちは、チャンヨンさん！感動的な受講レビュー、ありがとうございます。完講されてよくご存知だと思いますが、内容がどうしても単純な機能を教えるというより、インフラ構成からnginx構成、dockerセッティング、可用性テストまで多様な内容を含むため、簡単には進まないのではないかと、大変心配しておりました。そこで ansible-playbookで最大限標準化し講義撮影を終えた後も、実際に講義を真似して試しながら、もしうまくいかない部分がないか直接確認もいたしました。そして、もしできなかった方のために、円滑なコミュニケーションに備えDiscordの部屋まで準備いたしました。結局、講義を公開するまでにかなり時間がかかりましたが、最大限完成度の高い講義を作ろうと努力いたしました。チャンヨンさんが分かってくださったようで、これまでの苦労が報われた思いです ^-^ こちらこそ感謝しております。。そして、シーズン2は始める前に生成系AIに関連して先に講義を一つ準備しているため、もう少し遅れる可能性がありそうです。それでも頑張って準備してみます！
gonggong
受講レビュー 5
∙
平均評価 4.6
2025/09/22
5
16% 受講後に作成
いつも感じることですが、熟成講義よりもこのように内容が豊富で詳しく扱う方が実力を積むのにはるかに役立ちます。本当に私のスタイルです。ありがとうございます。
ㅈ
受講レビュー 1
∙
平均評価 5.0
2025/07/31
修正済み
5
10% 受講後に作成
信頼できる現進先生。強くお勧めします。 airflow講義から知ることになりましたが、他の講義とは異なる差別化ポイントが多いです。概念からアーキテクチャ設計まで、使用理由と原理を説明してくださるのが良かったです。実習も楽々そのものです。回答まで常に親切につけてくださいます。まだ受講初期ですが完走してみます〜天気が暑いですが、健康に気をつけてください。
- hyunjinkim
  知識共有者
  2025/08/12
  こんにちは、やっぱりですね님 airflowに続いて見つけてくださって本当にありがとうございます！私は自分で何かを学ぶとき、表面的に使い方だけ覚えて原理を把握しないとすぐに忘れてしまい、理解できないんですよね。他の方々もそうだと思うので、私が理解した原理を伝えるために講義時間をたくさん割く方です。そのためpptも作らなければならないし課題も作っているので少し大変ですが、おかげで認めてくださってありがとうございます😊 次の講義もしっかり準備してみますね💪
jusungpark
受講レビュー 25
∙
平均評価 4.8
2025/08/03
5
100% 受講後に作成
期待以上によく整理されたカリキュラムと内容で多くのことを学んで帰ります。丁寧に講義を作ってくださったという感じをとても受けました。後続講義を待っています。ありがとうございます。
- hyunjinkim
  知識共有者
  2025/08/12
  람쥐뱅さん受講レビューありがとうございます。私もカリキュラムを作りながら、どうすれば基礎からしっかりとお伝えしながらKafkaからsparkまで繋げることができるか悩みが多かったです。おかげで講義企画から完成まで1年かかりましたが、このように分かっていただけて誇らしいです ^^ ありがとうございます。今準備している後続講義はseason2ではありませんが、充実した内容で構成して後悔しないよう進めてみます 😀
jangbyeonghui
受講レビュー 8
∙
平均評価 4.9
2025/09/21
5
30% 受講後に作成
一つ一つ学んでいく部分が実際の業務に大きな助けになりそうです 👍

hyunjinkimの他の講座

知識共有者の他の講座を見てみましょう！

AI入門のためのLLMアーキテクチャの理解とGPU活用戦略

hyunjinkim

トランスフォーマーベースのLLMアーキテクチャとGPU活用戦略を理解し、vLLMを活用した実際のサービング過程まで直接実習します。 AIシステムパイプラインの構築からモニタリング、マルチGPUの活用まで実務フロー全体を扱い、複雑な数式なしで図解と実習を中心に直感的に理解できるように構成された講義です。

初級

GPU, attention-model, AI

AI入門のためのLLMアーキテクチャの理解とGPU活用戦略

hyunjinkim

Airflowマスタークラス

hyunjinkim

データパイプラインを効率的に作成し管理するためのOrchestrationツールであるAirflowについて学ぶ講義です。初心者でも順を追って学べるAirflowマスタークラスへようこそ！

初級

airflow, Data Engineering, Python

Airflowマスタークラス

hyunjinkim

似ている講座

同じ分野の他の講座を見てみましょう！

シリコンバレーのリーダーが教えるビッグデータ処理（Spark）

keeyonghan

ビッグデータを処理するというのは、Pandasでデータを処理することと何が違うのでしょうか？ビッグデータ処理の必須フレームワークであるSparkについて学んでみましょうか？

初級

Apache Spark, pyspark, Pandas

シリコンバレーのリーダーが教えるビッグデータ処理（Spark）

keeyonghan

ビッグデータパイプラインマスタ: 成功のためのツールとテクノロジー

jphil

皆さん、ビッグデータ処理の4段階である[データ収集▶データ保存▶データ分析▶表現]について、理論30％＋実践70％のコードラボ方式でより楽しく体系的に学習します🧑🏻‍🏫

初級

Big Data, Elasticsearch, Apache Spark

ビッグデータパイプラインマスタ: 成功のためのツールとテクノロジー

jphil

Apache Kafka完全ガイド：インストールから実戦運用まで

wendy34647345

リアルタイムデータストリーミングの核心技術であるApache Kafkaの内部構造と動作原理を体系的に学習します。基礎概念からクラスター構築、クライアント開発、マイクロサービスへの適用まで、実務に必要なすべての知識とノウハウを習得し、安定的なKafka運用能力を身につけることができます。

初級

Kafka, MSA, stream

Apache Kafka完全ガイド：インストールから実戦運用まで

wendy34647345

大容量チャットTPSに対するstatefulサービスの構築

July

statefulサービスに対してどのようにサーバーを構築し、無停止デプロイが進行されるのか、すべてをお教えします。

初級

Node.js, MySQL, Go

大容量チャットTPSに対するstatefulサービスの構築

July

Kafka & Spark を活用したリアルタイムデータレイク

4.9

受講後に得られること

リアルタイムデータパイプライン、なぜ学ぶべきなのか？

最も人気のあるStreaming処理の組み合わせの一つであるKafka + Spark基盤のリアルタイムパイプライン

この講義の特徴

👍このような方におすすめです

受講後には

それで、どのような内容を扱うのですか？

カリキュラム

このような内容を学びます。

🚨実習前にご参考ください！

✔ Kafka Client(Producer/Consumer)はPythonで作成します。

✔ Spark言語もPythonで記述します。

🚨AWS予想実習費用

✔ 1ヶ月間約40時間使用した場合、約4万円程度のAWS費用が発生します。（為替レート1,430基準）

✔ サーバーをすべて停止していても、サーバーボリューム費用により月約3万円程度発生します。

以下の内容は学習しません。

✨コミュニケーション

受講前の参考事項

実習環境

学習資料

こんな方に
おすすめです

こんにちは
hyunjinkimです。

カリキュラム

受講レビュー

hyunjinkimの他の講座

似ている講座

Kafka & Spark を活用したリアルタイムデータレイク

4.9

受講後に得られること

リアルタイムデータパイプライン、なぜ学ぶべきなのか？

最も人気のあるStreaming処理の組み合わせの一つであるKafka + Spark基盤のリアルタイムパイプライン

この講義の特徴

👍このような方におすすめです

受講後には

それで、どのような内容を扱うのですか？

カリキュラム

このような内容を学びます。

🚨実習前にご参考ください！

✔ Kafka Client(Producer/Consumer)はPythonで作成します。

✔ Spark言語もPythonで記述します。

🚨AWS予想実習費用

✔ 1ヶ月間約40時間使用した場合、約4万円程度のAWS費用が発生します。（為替レート1,430基準）

✔ サーバーをすべて停止していても、サーバーボリューム費用により月約3万円程度発生します。

以下の内容は学習しません。

✨コミュニケーション

受講前の参考事項

実習環境

学習資料

こんな方に おすすめです

こんにちは hyunjinkimです。

カリキュラム

受講レビュー

hyunjinkimの他の講座

似ている講座

こんな方に
おすすめです

こんにちは
hyunjinkimです。