inflearn logo
知識共有
inflearn logo

AI入門のためのLLMアーキテクチャの理解とGPU活用戦略

トランスフォーマーベースのLLMアーキテクチャとGPU活用戦略を理解し、vLLMを通じて直接サービングを行います。 AIシステムパイプラインの構築からモニタリング、マルチGPU活用まで全過程を扱う講義で、これらすべての過程を複雑な数式やコーディングなしに、図解と実習を通じて直感的に学ぶことができます。

14名 が受講中です。

難易度 初級

受講期間 無制限

GPU
GPU
attention-model
attention-model
AI
AI
transformer
transformer
LLM
LLM
GPU
GPU
attention-model
attention-model
AI
AI
transformer
transformer
LLM
LLM

受講後に得られること

  • トランスフォーマーモデルとは何?トランスフォーマーモデルのエンコーダとデコーダの理解

  • トランスフォーマーモデルの根幹、MHA、MQA、GQA、MLAなどアテンションメカニズムの発展の流れを完璧に理解

  • 現在事実上の標準、vLLMエンジンの活用方法マスター

  • vLLM サービングと TTFT、TPOT 性能指標のモニタリング

  • Tensor/Pipeline/Data Parallelを活用したマルチGPUアーキテクチャの設計および実装

  • Agent AIの核心、Tool callingの原理の理解

  • 現場ノウハウの伝授、AIシステムパイプラインの構築と性能モニタリング

  • DeepSeek論文を通じて理解する最新トレンド(MLA、MTP、エングラムなど)

AI 3大強国となった今、必要なものは

LLMの理解と実務適用のための

LLMマスタークラス

自律型エージェントの時代に突入し、
Open Canvas、Claude Code、Codexなど多くのエージェントツールを使用していますが、
データ流出の脅威と制御不能なトークンコストの問題は解決できません。


正解はハイブリッドAIアーキテクチャです。



ですが、無条件にパブリックAPIの方が良いのではないかとお思いですか?
そうではありません。

最近では、public API(chatGPT, Claude, Sonnet etc.)に匹敵する
LLMが国内外で多数開発されています。



国内ソブリンAIの1次評価の結果、選定された3つのモデル


しかし、LLMを十分に理解して使いこなすことは容易ではありません。
高価なGPUを購入したものの、
LLMを理解して使用するのと理解せずに使用するのとでは、
大きな差が生じます。


ですから、今はLLMを直接サービングするためのアーキテクチャを学ぶ段階です。


🌟 LLMアーキテクチャからサービングまで


大エージェント時代を迎え、今は学習よりも推論の時代です。パブリックAPIを使いこなすことも必要ですが、多くの企業ではセキュリティ、ガバナンス、コストなど様々な理由から、ローカル環境でのサービング環境構築を好んでいます。ローカル環境でのLLMサービング環境を構築するためのLLMアーキテクチャの理解から、アーキテクチャ構成、LLM開発トレンドまで、すべてを学んでみてください。


講義のCore構成

Core 1. Hugging Faceモデルを理解する


Hugging Faceに公開されている数多くのLLMを、理解した上で使いこなす必要があります。
しかし、LLMモデルのスペックを示すconfig.jsonファイルは、初心者にとっては暗号も同然です。なぜなら、トランスフォーマー(Transformer)モデルを理解していなければ読み解くことができないからです。

でもご安心ください。この講義を受ければ、主要なスペックを見て理解できる専門家になれます。

thoughtful 講義を通じて config.json ファイルを解読する方法を習得してください。

(チャプター3-5の部分の内容です。残りの主要パラメーターについてすべて習得してください)


Core 2. アテンションをマスターする

現在LLMモデルの基盤となっているトランスフォーマーモデルの始まりと終わりは、アテンションです。

attention-model は2017年に登場しましたが、
いまだに10年近く最強のアルゴリズムとして君臨しています。
トランスフォーマー構造から脱却するための多くの努力がなされていますが、
今のところトランスフォーマーのアテンションを完全に代替するアーキテクチャは現れていません。

⚠️ アテンションは、なんとなく理解するだけでは絶対に不十分です。


アテンションの原理を完璧に理解し、発展の流れまで学んでいきましょう。

(チャプター 5-4 部分の内容です。アテンションの発展の流れが、すなわちLLMの発展の流れです)


Core 3. マルチGPUアーキテクチャを攻略する

大規模LLMの駆動と高速な推論のためのマルチGPU構成は必須です。
しかし、マルチGPU構成にもさまざまな方法があることをご存知ですか?


コアAIエンジニアになるための必須関門、GPU活用戦略について伝授します。




😄 こんな方におすすめです

AI初心者

トランスフォーマーを勉強しようとアテンションを調べてみたものの、数式で挫折した方

AI入門者

chatGPTやパブリックAPIのみを使ったことがある方。しかし、LLMモデルがどのように駆動するのか、その原理を学びたい方。

AIエンジニア

LLMモデルのアーキテクチャ特性を理解し、GPU環境で駆動・管理できる能力が必要なAIエンジニア

💡 講義で学ぶ内容

Step 1. Foundation

  • トランスフォーマーモデルの理解

  • トークナイザー & エンベディング

  • Encoder vs Decoder

  • モデルのソースコードを見る

Step 2. Attention

  • Decoderモデル攻略

  • アテンションをマスターする

  • Masked アテンション

  • KVキャッシュ

Step 3. Serving

  • vLLM Serving

  • Paged Attention

  • OpenAI Compatible

  • SSE Protocol

Step 4. Tool Call

  • Tool Callの理解

  • Tool 応答アーキテクチャ

  • チャットテンプレート

  • Tool call parser

Step 5. Optimization

  • 性能テスト

  • vLLM モニタリング

  • マルチGPU & Parallelism

  • vLLMの追加機能

Step 6. Advanced

  • Multi Token Prediction

  • mHC

  • Engram

  • 限界克服のための努力

💡 講義の核心ポイント

Point 1

数式なしで学ぶアテンションの核心原理


数式を使わず、エクセルを通じて直感的に多様なアテンション技法を学びます (MHA → MQA → GQA, Sliding Window アテンション)

Point 2

3層構造のAIアーキテクチャ実装


OpenWebUI、FastAPI、vLLMへと繋がる3Tierアーキテクチャの基本構造を理解し、Tool連携の基本的な流れを学びます

Point 3

vLLM運用のための同時ユーザー数測定とTips

jMeterを使用してFastAPI → vLLMの負荷テストを行い、同時ユーザー数に応じたTTFT、TPOTなどの指標を確認します。

Point 4

vLLMサービスのモニタリング

Prometheus & Grafana ダッシュボードパイプラインを構築し、vLLM サービスの運用に関する基本原理を習得します。

Point 5

シングルGPU / マルチGPUテスト

3つの基本マルチGPU(Pipeline Parallel、Tensor Parallel、Data Parallel)の実習を通じて、なぜマルチGPUが必要なのかを直接目で見て確認します。

Point 6

LLM開発トレンドを攻略する

DeepSeekのMTP、Shared MoE、MLA、Engramなどの最新手法と、推論効率化のために進められているLLM開発トレンドを紹介します。

✅ 講義で使用するツール類




✅ サーバー実習環境のご案内

vLLMシステムの構築はRunpodを活用して行われます。また、Google ColabのT4 GPUを活用した実習も並行して行います。T4 GPUは15GBのGPUメモリを提供しているため、Colabで可能な実習はColabで進めます。

Runpod

OpenWebUI → FastAPI → Runpod フローに基づいた実習環境を構築します。Runpod クラウドの GPU サーバーに vLLM を載せて、さまざまな実習を進めます。

実習のために約$10〜$20程度の費用が発生します。


Google Colab

人工知能(AI)実習の標準環境とも言えるGoogle Colabは、Runpod環境を必要としない単純な実習のために活用します。Proではない一般の無料ティアで進行し、T4 GPUを活用します。

✅ ローカル実習環境のご案内

vLLMサービスはRunpod上で起動しますが、
講義を受講されるローカルコンピュータでもOpenwebUIおよびFastAPIが駆動します。
したがって、以下の受講環境が満たされているか確認してください!



RunpodColabを主な実習環境として使用しますが、
ローカル環境内でOpenWebUI、FastAPIを立ち上げて実習を行います。.

⚠️ 本講義は、vLLMがアップデートされる際に講義内容もあわせて更新されます。

vLLMのアップデート速度は非常に速いです。しかし、メジャーバージョンはまだ0系にとどまっています。
ですが、多くの企業で事実上の標準(デファクトスタンダード)としてvLLMを推論エンジンに使用しています。
現在LLMの主軸をなすトランスフォーマーモデルだけでなく、代替案として登場した Mamba アーキテクチャまでvLLMでサポートされており、Multi Token Prediction のようにモデルに新しい機能が追加されると、それを支えるためにvLLMは毎回アップデートされます。
本講義も、新しいvLLMの機能や新しいモデルタイプが登場すれば、講義がアップデートされる予定です。

LLMのトレンドを逃さないでください。


こんな方に
おすすめです

学習対象は
誰でしょう?

  • AIエンジニアを目指して、LLMサービング技術を体系的に学習しようとしている入門者

  • 複雑な数式なしで、トランスフォーマーとアテンションの原理を実務的な観点から理解したい開発者

  • GPU最適化とマルチGPU環境でAIシステムを構築しようとするバックエンド/インフラエンジニア

前提知識、
必要でしょうか?

  • Pythonの基本文法に関する理解(変数、関数、条件文など)

  • Gitの基本的な使い方

こんにちは
hyunjinkimです。

1,396

受講生

93

受講レビュー

233

回答

4.9

講座評価

3

講座

こんにちは。

大手企業でデータ&AI分野に携わっている17年目の現役エンジニアです。

情報管理技術士を取得して以来、これまで得た知識を多くの人々と共有するためにコンテンツを制作しています。

はじめまして。 :)

 

Contact: hjkim_sun@naver.com

もっと見る

カリキュラム

全体

54件 ∙ (13時間 33分)

講座資料(こうぎしりょう):

授業資料
講座掲載日: 
最終更新日: 

受講レビュー

まだ十分な評価を受けていない講座です。
みんなの役に立つ受講レビューを書いてください!

似ている講座

同じ分野の他の講座を見てみましょう!

期間限定セール

¥42,900

70%

¥18,083