inflearn logo
知識共有
inflearn logo

AI入門のためのLLMアーキテクチャの理解とGPU活用戦略

トランスフォーマーベースのLLMアーキテクチャとGPU活用戦略を理解し、vLLMを通じて直接サービングを行います。 AIシステムパイプラインの構築からモニタリング、マルチGPU活用まで全過程を扱う講義で、これらすべての過程を複雑な数式やコーディングなしに、図解と実習を通じて直感的に学ぶことができます。

難易度 初級

受講期間 無制限

GPU
GPU
attention-model
attention-model
AI
AI
transformer
transformer
LLM
LLM
GPU
GPU
attention-model
attention-model
AI
AI
transformer
transformer
LLM
LLM

受講後に得られること

  • トランスフォーマーモデルとは何?トランスフォーマーモデルのエンコーダとデコーダの理解

  • トランスフォーマーモデルの根幹、MHA、MQA、GQA、MLAなどアテンションメカニズムの発展の流れを完璧に理解

  • 現在事実上の標準、vLLMエンジンの活用方法マスター

  • vLLM サービングと TTFT、TPOT 性能指標のモニタリング

  • Tensor/Pipeline/Data Parallelを活用したマルチGPUアーキテクチャの設計および実装

  • Agent AIの核心、Tool callingの原理の理解

  • 現場ノウハウの伝授、AIシステムパイプラインの構築と性能モニタリング

  • DeepSeek論文を通じて理解する最新トレンド(MLA、MTP、エングラムなど)

AI 3大強国となった今、必要なものは

LLMの理解と実務適用のための

LLMマスタークラス

自律型エージェントの時代に突入し、
Open Canvas、Claude Code、Codexなど多くのエージェントツールを使用していますが、
データ流出の脅威と、制御不能なトークンコストの問題は解決できません。


正解はハイブリッドAIアーキテクチャです。



ですが、無条件にpublic APIが良いのではないかとお思いですか?
そうではありません。

最近では、public API(chatGPT, Claude, Sonnet etc.)に匹敵する
LLMが国内外で多数開発されています。



国内ソブリンAI第1次評価の結果、選定された3つのモデル


しかし、LLMを正しく理解して使いこなすのは容易ではありません。
高価なGPUを購入したとしても、
LLMを理解して使用するのと、理解せずに使用するのとでは、
大きな差が生じます。


ですから、今はLLMを直接サービングするためのアーキテクチャを学ぶ段階です。


🌟 LLMアーキテクチャからサービングまで


大エージェントの時代を迎え、今は学習よりも推論の時代です。パブリックAPIを使いこなすことも必要ですが、多くの企業ではセキュリティ、ガバナンス、コストなど様々な理由から、ローカル環境でのサービング環境構築を好んでいます。ローカル環境でのLLMサービング環境を構築するためのLLMアーキテクチャの理解から、アーキテクチャ構成、LLM開発トレンドまで、すべてを学んでみてください。


講義のCore構成

Core 1. Hugging Faceモデルを理解する


Hugging Faceに公開されている数多くのLLMを、理解した上で使いこなさなければなりません。
しかし、LLMモデルのスペックを示すconfig.jsonファイルは、初心者にとっては暗号も同然です。なぜなら、トランスフォーマー(transformer)モデルを理解していなければ読み解くことができないからです。

でもご安心ください。この講義を受ければ、主要なスペックを見て理解できる専門家になれます。

講義を通じて config.json ファイルを解読する方法を習得してください。

(チャプター3-5の部分の内容です。残りの主要パラメーターについてすべて習得してください)


Core 2. アテンションをマスターする

現在LLMモデルの基盤となっているトランスフォーマーモデルの始まりと終わりは、アテンションです。

attention-model は2017年に登場しましたが、
いまだに10年近く最強のアルゴリズムとして君臨しています。
トランスフォーマー構造から脱却するための多くの努力がなされていますが、
今のところトランスフォーマーのアテンションを完全に代替するアーキテクチャは現れていません。

⚠️ アテンションを曖昧に理解したままにしてはいけません。


アテンションの原理を完璧に理解し、発展の流れまで学んでいきましょう。

(チャプター 5-4 部分の内容です。アテンションの発展の流れが、すなわちLLMの発展の流れです)


Core 3. マルチGPUアーキテクチャを攻略する

大規模LLMの駆動と高速な推論のためのマルチGPU構成は必須です。
しかし、マルチGPU構成にもさまざまな方法があることをご存知ですか?


コアAIエンジニアになるための必須関門、GPU活用戦略について伝授します。




😄 こんな方におすすめです

AI初心者

トランスフォーマーを勉強しようとしてアテンションを調べたものの、数式で諦めてしまった方

AI入門者

ChatGPTやパブリックAPIのみを使ったことがある方。しかし、LLMモデルがどのように駆動するのか、その原理を学びたい方。

AIエンジニア

LLMモデルのアーキテクチャ特性を理解し、GPU環境で駆動・管理できる能力が必要なAIエンジニア

💡 講義で学ぶ内容

Step 1. Foundation

  • トランスフォーマーモデルの理解

  • トークナイザー & エンベディング

  • Encoder vs Decoder

  • モデルのソースコードを見る

Step 2. Attention

  • Decoderモデル攻略

  • アテンションをマスターする

  • Masked アテンション

  • KVキャッシュ

Step 3. Serving

  • vLLM Serving

  • Paged Attention

  • OpenAI Compatible

  • SSE Protocol

Step 4. Tool Call

  • Tool Callの理解

  • Tool 応答アーキテクチャ

  • チャットテンプレート

  • Tool call parser

Step 5. Optimization

  • 性能テスト

  • vLLM モニタリング

  • マルチGPU & Parallelism

  • vLLMの追加機能

Step 6. Advanced

  • Multi Token Prediction

  • mHC

  • Engram

  • 限界克服のための努力

💡 講義の核心ポイント

Point 1

数式なしで学ぶアテンションの核心原理


数式を使わず、エクセルを通じて直感的に多様なアテンション技法を学びます (MHA → MQA → GQA, Sliding Window アテンション)

Point 2

3層構造のAIアーキテクチャの実装


OpenWebUI、FastAPI、vLLMへと繋がる3Tierアーキテクチャの基本構造を理解し、Tool連携の基本的な流れを学びます

Point 3

vLLM運用のための同時ユーザー数測定とTips

jMeterを使用してFastAPI → vLLMの負荷テストを行い、同時ユーザー数に応じたTTFT、TPOTなどの指標を確認します。

Point 4

vLLMサービスのモニタリング

Prometheus & Grafana ダッシュボードパイプラインを構築し、vLLM サービス運営の基本原理を習得します。

Point 5

シングルGPU / マルチGPUテスト

3つの基本マルチGPU(Pipeline Parallel、Tensor Parallel、Data Parallel)の実習を通じて、なぜマルチGPUが必要なのかを直接目で見て確認します。

Point 6

LLM開発トレンドを攻略する

DeepSeekのMTP、Shared MoE、MLA、Engramなどの最新手法や、推論効率化のために進められているLLM開発トレンドを紹介します。

✅ 講義で使用するツール類




✅ サーバー実習環境のご案内

vLLMシステムの構築はRunpodを活用して行われます。また、Google ColabのT4 GPUを活用した実習も並行して行われます。T4 GPUは15GBのGPUメモリを提供しているため、Colabで可能な実習はColabで進めます。

Runpod

OpenWebUI → FastAPI → Runpod フローに基づいた実習環境を構築します。Runpod クラウドの GPU サーバーに vLLM を載せて、さまざまな実習を進めます。

実習のために約$10〜$20程度の費用が発生します。


Google Colab

人工知能(AI)実習の標準環境とも言えるGoogle Colabは、Runpod環境を必要としない単純な実習のために活用します。Proではない一般の無料ティアで進行し、T4 GPUを活用します。

✅ ローカル実習環境のご案内

vLLMサービスはRunpod上で起動しますが、
講義を受講されるローカルコンピュータでもOpenwebUIおよびFastAPIが駆動します。
したがって、以下の受講環境が満たされているか確認してください!



RunpodColabを主な実習環境として使用しますが、
ローカル環境内でOpenWebUI、FastAPIを起動して実習を行います。.

⚠️ 本講義は、vLLMがアップデートされる際に講義内容もあわせて更新されます。

vLLMのアップデート速度は非常に速いです。しかし、メジャーバージョンはまだ0系に留まっています。
ですが、多くの企業で事実上の標準(デファクトスタンダード)としてvLLMを推論エンジンに使用しています。
現在LLMの主軸となっているトランスフォーマーモデルだけでなく、代替案として登場した Mamba アーキテクチャまでvLLMでサポートされており、Multi Token Prediction のようにモデルに新しい機能が追加されると、それを支えるためにvLLMは毎回アップデートされます。
本講義もまた、新しいvLLMの機能や新しいモデルタイプが登場すれば、講義がアップデートされる予定です。

LLMのトレンドを見逃さないでください。


こんな方に
おすすめです

学習対象は
誰でしょう?

  • AIエンジニアを目指して、LLMサービング技術を体系的に学習しようとしている入門者

  • 複雑な数式なしで、トランスフォーマーとアテンションの原理を実務的な観点から理解したい開発者

  • GPU最適化とマルチGPU環境でAIシステムを構築しようとするバックエンド/インフラエンジニア

前提知識、
必要でしょうか?

  • Pythonの基本文法に関する理解(変数、関数、条件文など)

  • Gitの基本的な使い方

こんにちは
hyunjinkimです。

1,524

受講生

98

受講レビュー

234

回答

4.9

講座評価

3

講座

こんにちは。

大手企業でデータ&AI分野に携わっている17年目の現役エンジニアです。

情報管理技術士を取得して以来、これまで得た知識を多くの人々と共有するためにコンテンツを制作しています。

はじめまして。 :)

 

Contact: hjkim_sun@naver.com

もっと見る

カリキュラム

全体

54件 ∙ (14時間 30分)

講座資料(こうぎしりょう):

授業資料
講座掲載日: 
最終更新日: 

受講レビュー

全体

3件

5.0

3件の受講レビュー

  • kjunekjune0812님의 프로필 이미지
    kjunekjune0812

    受講レビュー 2

    平均評価 5.0

    修正済み

    5

    43% 受講後に作成

    私はディープラーニング関連の職種ではありませんが、コンピュータビジョン(ルールベース)の分野で働いています。会社でLLMとビジョン系のディープラーニング技術が必要になり、関連するトピックを勉強しています。 まだ40%ほどしか受講していませんが、受講評を書かなければと思い投稿します。 ディープラーニング関連の講義もたくさん受けてきましたし、それなりに有名で評判の良い方の講義も受けてみましたが、この講義ほどスッキリとまとまった講義はありませんでした。 一番良いのは、講義資料のクオリティが素晴らしいことです。エクセルで行列計算を一つひとつ書き留めてくださっていますが、復習の際に本当に役立ちます。Pythonのコードも多くの場所にコメントが付けられています。 講義の質も高く、受講生が忘れそうな部分はリマインドしてくれるので、聞き逃すことがなくて良かったです。計算も、他の講義では大抵1、2回見せて終わりですが、この講義では最後まで一緒に計算してくれるので、確実で良かったです。 Q&Aも頻繁にチェックされているのか、質問を投稿するとすぐに回答をいただけるので助かりました。講義はおそらく今年撮影されたものだと思いますが、そのせいか最新トレンドの内容が多くて良いです。 まだ口コミが広まっていない講義のようですが、関連するトピックで勉強が必要な方に本当に強くおすすめします。

    • hyunjinkim
      知識共有者

      こんにちは、Wonjune leeさん。 心のこもった受講レビューをいただき、ありがとうございます! 受講生の皆様が十分に意味のある資料を受け取り、後で見返してもしっかりと復習ができるよう、講義資料のクオリティを高めるために試行錯誤を重ねました。 また、アテンションのような演算をどのように伝えれば効果的に伝わるかについても、深く悩みました。 私が出した結論は、数式だけで見てもいけないし、単に簡単な比喩で伝えてもいけない、そしてPyTorchのコードだけで説明してもいけないということでした。 目で流れを追いながら見てこそ理解できると考え、エクセルで最大限説明させていただきましたが、うまく伝わったようでとても嬉しいです :) 残りの部分もぜひ最後まで受講して、良い内容を吸収していただければと思います。 応援しています!

  • nhjun873533님의 프로필 이미지
    nhjun873533

    受講レビュー 1

    平均評価 5.0

    5

    31% 受講後に作成

    • hyunjinkim
      知識共有者

      ありがとうございます。

  • 6tank1004님의 프로필 이미지
    6tank1004

    受講レビュー 13

    平均評価 5.0

    5

    7% 受講後に作成

    • hyunjinkim
      知識共有者

      ありがとうございます。

似ている講座

同じ分野の他の講座を見てみましょう!

¥18,057