AI入門のためのLLMアーキテクチャの理解とGPU活用戦略
hyunjinkim
トランスフォーマーベースのLLMアーキテクチャとGPU活用戦略を理解し、vLLMを活用した実際のサービング過程まで直接実習します。 AIシステムパイプラインの構築からモニタリング、マルチGPUの活用まで実務フロー全体を扱い、 複雑な数式なしで図解と実習を中心に直感的に理解できるように構成された講義です。
初級
GPU, attention-model, AI
初心者のための Kafka & Spark リアルタイムパイプライン入門講座。 コアコンセプトからアーキテクチャまでマスターするためのオールインワン講座です。
受講生 301名
難易度 初級
受講期間 無制限
学習した受講者のレビュー
5.0
:찬영
非常に完成度の高い講義でした。感動そのものです 普通、講義を聞いていると、同じようにやったのになぜできないんだ?という状況が少なくないと思いますが、そういったことなくスムーズに完講しました。 私は講義を選択するにあたり、まず最初にカリキュラムを見て、価格と講義時間を比較します。 これまで価格の割に、あまりにも表面的な講義が多かったのですが、 현진님의 kafka&spark 講義を聞けば、今後のプロジェクトでも十分に完成度の高い成果物を出すことができると断言します! 大変勉強になりました、ありがとうございます! (シーズン2はいつ頃出るのでしょうか…?)
5.0
램쥐뱅
期待以上によく整理されたカリキュラムと内容で多くのことを学んで帰ります。 丁寧に講義を作ってくださったという感じをとても受けました。 後続講義を待っています。 ありがとうございます。
5.0
역시자네야
信頼できる現進先生。強くお勧めします。 airflow講義から知ることになりましたが、他の講義とは異なる差別化ポイントが多いです。概念からアーキテクチャ設計まで、使用理由と原理を説明してくださるのが良かったです。実習も楽々そのものです。回答まで常に親切につけてくださいます。まだ受講初期ですが完走してみます〜 天気が暑いですが、健康に気をつけてください。
Github Actionsと AWS Code Deployで CI/CD 実装
Kafka Broker, Confluent Producer & Consumer
Prometheus & Grafana を利用した Kafka Dashboard モニタリング
Catalog 管理のための Spark & Hive Metastore
Spark Streamingを利用した実践プロジェクト実装
Kafka & Spark, Zookeeper & Yarn の 可用性テスト
リアルタイムデータパイプライン構成を通じて迅速な分析と意思決定を支援することは、選択ではなく必須です。
リアルタイム個人化マーケティング & レコメンデーション
リアルタイムトレンド分析
リアルタイムセキュリティ脅威検知および対応
特にAIが基本となった昨今では、AIを活用したリアルタイム推薦、検知、翻訳など無限の事例が存在し、このようなアーキテクチャ実装のためにますますリアルタイムデータパイプラインが求められています。
そこで準備しました。
Kafka & Spark は基本から着実に、パイプライン実装を超えてアーキテクチャ観点での設計方法まで準備しました。
📌ローカルマシン上の単一構成はNo!トレンドはクラウドです。AWS Cloudを活用します。
📌 CI/CDは基本ですよね?GitHub ActionsとAWS Code Deployを通じてCI/CDを構成します。
📌 基本からゆっくりと、しかし実習と課題を通じて講義内容が内在化できるようにお手伝いします。
📌サーバークラスター構成からリアルタイムパイプライン構成および可用性テストまでAll in One構成

リアルタイムデータパイプラインを学びたいです。
データパイプラインには興味があるものの、リアルタイム処理は経験したことがない方

DataLakeについて知りたいです。
Cloud上に構築されるDataLakeがどのように実装されるかを学びたい方

アーキテクトとして成長したいです。
インフラ設計からコードレベルまで大容量処理が可能で堅牢なアーキテクチャ実装が気になる方
Kafka Brokerサービスの基本原理の理解、可用性保証を理解し、これを基盤としてBrokerサービスを扱えるようになります。
Kafka Producer/Consumerの基本原理から高級オプションまで理解し、大容量環境でのパフォーマンスと整合性間のTrade-offの理解を通じて堅牢なApplicationを作成できるようになります。
Sparkが性能を発揮できる条件について理解し、性能を最適化できる技法を基盤としてApplicationを作成できるようになります。
AWS S3、Glue、Athenaなど複数のサービスとSparkサービスとの連携を通じて、パイプラインの多様性を理解することができます。
今やトレンドはクラウドです。EC2サーバーを利用して実戦と同じようにクラスターを構成してみます。
Kafka & Sparkは基本からゆっくりと学びます。
AWSのS3、Glue、Athenaサービスを通じてDatalake on AWSの基本概念を学びます。
パイプラインは収集から活用まで区分して見ることができます。
各段階でどのツールをどのように使用するか、どのように連携されるかを明確に把握する必要があります。
したがって、KafkaとSparkを単純に学ぶだけでは終わりません。
最終的に実際のパイプラインを構築してみて
その過程でCI/CD、可用性テスト、問題解決と性能向上などの方法を学びます。
データレイクの概念
Lambda
Kappa Architecture
パイプライン設計
Kafka基礎
ブローカー
Kafka Producer
Kafka Consumer
モニタリング
UI For Apache Kafka
Prometheus
Grafana
Apache Spark 基本
Spark Cluster
Spark SQL
Spark Streaming
パフォーマンス向上のTip
パフォーマンス向上チェックリスト
Trouble Shooting
Spark Monitoring
可用性テスト
Zookeeper Cluster
Kafka Broker
Spark Cluster
パイプライン設計
リアルタイムデータパイプライン構成のために選択可能なツールの組み合わせ。
そして実習のために選択するKafka & Sparkのデータフローを理解し、実装してみます。
CI/CD: Github Actions + Code Deploy
CI/CDは基本中の基本。
ローカルgit → Github Repository連携後、自動デプロイができるようにActions + Code Deployの組み合わせを活用します。
Kafka Web UI
UI For Apache Kafkaを通じてKafkaを簡単に管理する方法を学びます。
Prometheus + Grafana
モニタリングパイプラインの大勢。
Prometheus + Grafanaの組み合わせを通じてKafkaをモニタリングし、さらにSpark StreamingのLAGモニタリング方法を学びます。
Kafka Source + Spark Streaming
Kafka + Spark Streamingの組み合わせを通じて実際のパイプラインを実装し、これを基にDashboardを可視化します。
AWS Athena
AWS Athenaサービスはサーバーレスクエリサービスです。このサービスを活用してSpark Streamingの処理結果を直接確認してみます。
Python Dashboard
実装したリアルタイムデータパイプラインを利用してDashboardで可視化し、パイプラインの流れを理解します。
可用性テスト
最大限実際と同じアーキテクチャ実装を通じて堅牢なアーキテクチャを実装し、可用性テストを進行します。Kafka、Spark、Yarn Clusterの可用性を理解し確認します。
Ansibleを利用したInfraセットアップ自動化
これを全部作るのにやることが多すぎるんじゃないかって?
はい、その通りです。とても多いです。
インストールするライブラリも多く、あれこれ設定しなければならないことがとても多いです。何か一つでも合わないとエラーが出ますね🤬
しかし、皆さんはリアルタイムパイプライン実装という重要な内容にのみ注目していただければと思います。
インフラ構成と各種セットアップは、事前に準備されたAnsible Scriptを通じて自動化が進行されます。
Ansible Scriptは下記のgithubアドレスで事前に確認できます。
https://github.com/hjkim-sun/datalake-ansible-playbook-season1
皆さんは上記のgithub repositoryの内容をcloneしてセットアップ過程を簡単に進めることになります。
Python Kafka Libraryには複数の種類がありますが、その中で最も性能の良いConfluent Kafka Libraryを使用します。Confluent KafkaはJavaに劣らない高い性能を保証するツールとして、Pythonを通じてProducer/Consumerを作成する方法を学びます。
Spark Applicationを作成する際に最もパフォーマンスが良い言語はScalaです。しかし、Sparkのために別途Scala言語を学ぶには確実に負担があります。Python言語ほど大衆的ではなく、ディープラーニング/AI関連ライブラリも相対的に少ないという短所があります。そのため現場ではPythonを利用してSparkプログラムを開発するケースが多いです。特にディープラーニング/AI連携を考慮するならPython言語で作成することは優れた代替案になり得ます。
実習はAWS Cloudで行われ、実習費用が別途発生します。
実習費用の大部分はEC2(コンピューティングサービス)で発生するため、実習・課題後は必ずサーバーインスタンスを停止してください。ただし、その他の費用(サーバーインスタンスに接続されているボリューム(EBS)とEIP)の場合、サーバーインスタンスを停止しても費用が発生します。したがって、完走を早くするほどAWS実習費用は減少します。
したがって、同じ40時間を使用しても1ヶ月ではなく2ヶ月間使用される場合は、3万ウォンが追加されて総額7万ウォン程度のAWS料金が発生することになります。したがって、できるだけ早く完走されることをお勧めします。
Java ベースの Producer/Consumer 開発
Kafka Connect(Season2予定)
Schema Registry(Season2予定)
Kafka Streams
KSQL
機械学習およびディープラーニング
Open Table Format (例:iceberg) (Season2予定)
Scalaベースのアプリケーション(pysparkのみで作成します)
複数のツールと連携する作業が多い講義の特性上、気になる内容や予想外のエラーが発生する場合、Q&A掲示板だけでのコミュニケーションは困難な場合があります。
(経験上、質問が登録されてから私が回答を付けて再確認されるまで3〜4日程度かかるようです)
このようなコミュニケーションの不便さを軽減し、受講された方々に最後まで高品質なサービスを提供するため、Discordチャンネルを運営したいと思います。
講義に関する内容でも良いし、そうでなくても良いです。些細な話をしても良いです。
円滑なコミュニケーションのための場所ですので、お気軽にお入りください
[OS] ほとんどの実習はAWSで進行します。したがってWindow/MacOSに関係なく受講可能です。
[性能]高いCPU/Memoryスペックを要求しません。一般的に使用するノートパソコン/デスクトップであれば十分に受講可能です。
[その他] インターネット環境があればいくらでも受講可能です。そして、AWS Cloudの費用決済が可能なクレジットカードが必要です。
講義1-2で提供しています。
必須事前知識事項
Pythonの基礎知識
基本的なデータ構造とif/for/while等の基本的な文法。そして関数を作成できる程度の実力
Linuxの基本コマンド
ほとんどのInfra作業はAnsible自動化ツールを通じて進行されます。しかし、Linuxの基本コマンドは知っておく必要があります。(viエディタ、cd/mv/rm等の基本コマンド)
SQL
基本的なSQL知識(SELECT、WHERE、JOIN、GROUP BY、ORDER BYなど)を知っていれば、ついてくるのがずっと楽になります。
(難しいSQLはありません)
推奨事前知識事項
Dockerコンテナ
コンテナを利用してモニタリングツールをセットアップします。コンテナの原理を知っていると役に立ちます。
git
CI/CDのためにgitを活用して直接コードデプロイまで進行します。使用方法はすべて丁寧に説明しますが、知っていればより良いです。
Pythonクラスの理解
実習で進行されるほとんどのPythonプログラムは、クラス構造を通じて構造化が進められます。したがって、クラスおよびオブジェクト指向に対する理解があれば、実習しやすくなります
(知らなくても大丈夫です。全て説明します)
学習対象は
誰でしょう?
Kafka & Spark を学びたい方
リアルタイムパイプラインの実装を学びたい方
データエンジニアとして 様々な知識とスキルの開発が必要な方
前提知識、
必要でしょうか?
Pythonの基本概念
SQLに関する基本知識 (Filter, GroupBy, OrderBy程度)
Linux の基本的なコマンドを扱えるレベル
インフラン認証
1,604
受講生
111
受講レビュー
241
回答
4.9
講座評価
3
講座
こんにちは。
大手企業でデータ&AI分野に携わっている17年目の現役エンジニアです。
情報管理技術士を取得して以来、これまで得た知識を多くの人々と共有するためにコンテンツを制作しています。
はじめまして。 :)
Contact: hjkim_sun@naver.com
全体
113件 ∙ (28時間 23分)
講座資料(こうぎしりょう):
全体
23件
4.9
23件の受講レビュー
受講レビュー 1
∙
平均評価 5.0
修正済み
5
非常に完成度の高い講義でした。感動そのものです 普通、講義を聞いていると、同じようにやったのになぜできないんだ?という状況が少なくないと思いますが、そういったことなくスムーズに完講しました。 私は講義を選択するにあたり、まず最初にカリキュラムを見て、価格と講義時間を比較します。 これまで価格の割に、あまりにも表面的な講義が多かったのですが、 현진님의 kafka&spark 講義を聞けば、今後のプロジェクトでも十分に完成度の高い成果物を出すことができると断言します! 大変勉強になりました、ありがとうございます! (シーズン2はいつ頃出るのでしょうか…?)
こんにちは、チャンヨンさん! 感動的な受講レビュー、ありがとうございます。 完講されてよくご存知だと思いますが、内容がどうしても単純な機能を教えるというより、インフラ構成からnginx構成、dockerセッティング、可用性テストまで多様な内容を含むため、簡単には進まないのではないかと、大変心配しておりました。 そこで ansible-playbookで最大限標準化し 講義撮影を終えた後も、実際に講義を真似して試しながら、もしうまくいかない部分がないか直接確認もいたしました。 そして、もしできなかった方のために、円滑なコミュニケーションに備えDiscordの部屋まで準備いたしました。 結局、講義を公開するまでにかなり時間がかかりましたが、最大限完成度の高い講義を作ろうと努力いたしました。 チャンヨンさんが分かってくださったようで、これまでの苦労が報われた思いです ^-^ こちらこそ感謝しております。。 そして、シーズン2は始める前に生成系AIに関連して先に講義を一つ準備しているため、もう少し遅れる可能性がありそうです。それでも頑張って準備してみます!
受講レビュー 5
∙
平均評価 4.6
受講レビュー 1
∙
平均評価 5.0
修正済み
5
信頼できる現進先生。強くお勧めします。 airflow講義から知ることになりましたが、他の講義とは異なる差別化ポイントが多いです。概念からアーキテクチャ設計まで、使用理由と原理を説明してくださるのが良かったです。実習も楽々そのものです。回答まで常に親切につけてくださいます。まだ受講初期ですが完走してみます〜 天気が暑いですが、健康に気をつけてください。
こんにちは、やっぱりですね님 airflowに続いて見つけてくださって本当にありがとうございます! 私は自分で何かを学ぶとき、表面的に使い方だけ覚えて原理を把握しないとすぐに忘れてしまい、理解できないんですよね。 他の方々もそうだと思うので、私が理解した原理を伝えるために 講義時間をたくさん割く方です。 そのためpptも作らなければならないし課題も作っているので少し大変ですが、おかげで認めてくださってありがとうございます😊 次の講義もしっかり準備してみますね💪
受講レビュー 25
∙
平均評価 4.8
5
期待以上によく整理されたカリキュラムと内容で多くのことを学んで帰ります。 丁寧に講義を作ってくださったという感じをとても受けました。 後続講義を待っています。 ありがとうございます。
람쥐뱅さん 受講レビューありがとうございます。私もカリキュラムを作りながら、どうすれば基礎からしっかりとお伝えしながらKafkaからsparkまで繋げることができるか悩みが多かったです。 おかげで講義企画から完成まで1年かかりましたが、このように分かっていただけて誇らしいです ^^ ありがとうございます。今準備している後続講義はseason2ではありませんが、充実した内容で構成して後悔しないよう進めてみます 😀
受講レビュー 8
∙
平均評価 4.9
知識共有者の他の講座を見てみましょう!
同じ分野の他の講座を見てみましょう!