Inflearn brand logo image
Inflearn brand logo image
Inflearn brand logo image
AI Development

/

AI Agent Development

[VLM101] ファインチューニングでマルチモーダルチャットボット作成 (feat.MCP)

ビジョン言語モデル(Vision-Language Model, VLM)の概念と活用方法を理解し、実際にLLaVAモデルをOllamaベースの環境で実行し、MCP(Model Context Protocol)と連携する過程を実習する入門者向け講座です。 この講座ではマルチモーダルモデルの原理、軽量化(Quantization)、サービスおよび統合デモ開発まで扱い、理論と実習をバランス良く提供します。

  • dreamingbumblebee
실습 중심
mcp
Vision Transformer
transformer
Llama
Model Context Protocol

学習した受講者のレビュー

こんなことが学べます

  • MCPが何なのか理解する

  • 手作業でVLMチューニングとPoCデモを作ってみる

オートバンドバナー(1)

ファインチューニング&チャットボット実装で学ぶ
最新のマルチモーダル技術、VLM

私たちは毎日ChatGPT、Gemini、ClaudeなどのAIサービスを使用していますが、彼らがどのように画像を「理解する」のか疑問に思いましたか?主な技術はVision-Language Model(VLM)です。

このレッスンでは、最新のVLMモデルであるLLaVAとQwen2.5vを直接ファインチューニングし、Olamaでローカルに実行し、MCP(Model Context Protocol)を活用して独自のマルチモーダルチャットボットを作成します。 CLIP Vision Encoder、Quantization、MCP Serverの構築など、実務にすぐに適用できる技術も取り扱い、単純なAPI呼び出しを超えてVLMの動作原理からMCP連動までの全体的なワークフローを体験できます。

📌マルチモーダルAIの進化の流れを一目で

CLIPからLLaVA OneVisionまで、VLMの発展過程と技術的文脈を整理します。

📌自分で作る自分だけのVLMチャットボット

ファインチューニングと軽量化、Ollamaローカル実行まで - 直接モデルを構成します

📌理論と実践の完璧なバランス

RunPod環境で実際にGPUを使用してモデルをトレーニングしてテストします

📌ディープラーニング経験者なら誰でもOK

入門者もフォローできるように基礎概念からじっくり説明します

講義で体験できる
5つのポイント

✅API呼び出しではなく、自分で作るマルチモーダルAI体験
モデルを単に使用することを超えて、直接チューニング、接続、完成する実戦中心構成です。

VLM技術の進化フローを段階的に体験
CLIP→LLaVA→LLaVA 1.5→OneVisionに至るマルチモーダルモデルの発展過程を体系的に経験します。

最新のマルチモーダル技術を反映
LLaVA OneVision、MCPなど、最新のマルチモーダルAIフローを盛り込んだ。

10ドルで完走可能なGPU実習設計
RunPod環境基準、負担のない費用でもフル実習が可能です。

講義で完成する自分だけのポートフォリオ
講義修了時には、自分で作ったマルチモーダルチャットボットの成果を保有します。

こんな方におすすめです

🚀AI開発でレベルアップしたいです。
ChatGPT APIだけを使ってみましたが、今すぐAIモデルを扱いたい開発者/学生

👁マルチモーダルAIに興味があります。
テキストと画像を同時に処理するAIはどのように機能しますか? VLMの原理が気になる方

ローカルAI環境構築が気になります。
クラウドAPIのコストがかかり、ローカルでAIモデルを実行したい人

💡このような受講生に必要な講義

😤 「APIだけを書くのが苦しいです」

  • ChatGPT APIでサービスを作成しましたが、費用も負担され、制約も多くて苦しい方

  • ブラックボックスのようなAIモデルの内部が気になって直接触ってみたい方

💸 「AIサービス運営費が高すぎる」

  • OpenAI Vision API呼び出しのコストがかかり、独自のモデル構築を検討しているスタートアップ開発者

  • 大量の画像処理が必要なサービスを企画中の方

🚀 「マルチモーダルAIの専門家になりたい」

  • AI開発者としてキャリアを発展させたいのですが、テキストベースのLLMだけを扱った方

  • ポートフォリオに差別化されたプロジェクトを追加したい就職準備生

🤔 「VLMが正確に何であるかわからない」

  • AIトレンドはフォローしたいのですが、マルチモーダルが何なのか、VLMが何なのか正確に理解できない方

  • 画像とテキストを同時に処理するAIの原理が気になる方

受講後は

  • CLIP、LLaVAシリーズの動作原理を完全に理解できます。マルチモーダルAIもこれ以上ブラックボックスではなくなります。

  • OllamaとRunPodを活用した本番環境でVLMをファインチューニングしてデプロイできます。

  • Quantization技法で巨大なモデルを軽量化し、個人PCでも実行できるようになります。

  • MCP(Model Context Protocol)を活用して、複数のAIツールを統合したワークフローを構築できます。

  • 自分だけのマルチモーダルチャットボットを最初から最後まで直接作れるようになります。

💡受講後に得られる具体的な変更

🎯即活用可能な実務スキル

受講完了後は、以下の実戦プロジェクトを一人で行うことができます。

  • 独自のVLMサービス:特定ドメイン(医療、教育、ショッピングなど)に特化したイメージ分析チャットボット

  • ローカルAIワークフロー:MCPを活用して複数のAIツールが連携する自動化システム

  • 費用対効果の高い AI サービス: API 依存性を低減し、独自のモデルで運用するサービス

📈キャリア発展のためのポートフォリオ

  • GitHubリポジトリ:フル練習コードとトレーニングされたモデルをまとめた完成度の高いレポジトリ

  • 技術ブログ素材:VLMファインチューニングプロセスと結果をまとめた技術投稿作成可能

  • 面接経験談:「直接VLMをファインチューニングしてみた経験」で差別化された面接ストーリー

🧠深い理解と応用力

単純な使い方を超えて:

  • VLMの内部動作原理を完全に理解し、新しいモデルも迅速に学習可能

  • Quantization、GGUF変換などのモデル最適化手法を他のプロジェクトにも適用

  • MCPエコシステムを活用したAIワークフロー設計能力

このような内容を学びます。

🧠VLMコア原理:CLIPからLLaVA OneVisionまで
マルチモーダルAIはどのようにイメージを「理解」するのですか? CLIP Vision Encoderの原理から最新のLLaVA OneVisionまで、VLMの進化プロセスを段階的に学習します。

🔧本番ファインチューニング:独自のVLMを作成
RunPod GPU環境でLLaVAモデルを直接ファインチューニングしてみます。 Jupyter NotebookとHuggingFace Accelerateを活用した効率的なトレーニング方法を学びます。

モデル軽量化:Quantization&GGUF変換
巨大なVLMをパーソナルPCでも実行できるようにGGUF形式に変換し、Quantizationを適用する実践的なテクニックを学びます。

🔗MCP統合:AIツールのコラボレーション
Model Context Protocolを活用して、複数のAIモデルとツールを1つのワークフローにリンクする方法を学びます。

この講義を作った人

  • 2016~現在:NLP&LLM開発実務者(大企業N社~S社勤務)

受講前の注意

練習環境

  • 講義はMacOSで説明します。 Windowsマシンの場合、dockerがインストールされている場合は、ほとんど従うことができます。

  • 講義では cursor を使用します。 vscodeのバージョンも無理なく従うことができると思います。

  • クラウド環境

    • RunPod : GPUインスタンスレンタルサービス、H100またはA100の使用

    • 予想費用:総実践基準10ドル

    • 利点:複雑な環境設定なしですぐに練習可能

    • 注意事項

      • RunPodアカウントの作成と支払いカードの登録が必要

学習資料

  • 添付するPDFとソースコードを確認してください

選手の知識と注意事項

  • LLMに関する知識(以前のLLM 101講義を参照)

  • 基本的なPython文法(クラス、関数、モジュールを使用)

  • ディープラーニング/マシンラーニング基礎概念(ニューラルネットワーク、トレーニング、推論など)

  • GPU環境でのモデルトレーニング経験があれば良いです(必須ではありません)

  • ターミナル/コマンドの使用に慣れれば役に立ちます

こんな方に
おすすめです

学習対象は
誰でしょう?

  • Multimodal, VLMが初めての方

  • MCPベースのデモを作ってみたい人

前提知識、
必要でしょうか?

  • LLM 基礎

こんにちは
です。

227

受講生

29

受講レビュー

4

回答

4.5

講座評価

2

講座

📱contact: dreamingbumblebee@gmail.com

カリキュラム

全体

23件 ∙ (2時間 52分)

講座資料(こうぎしりょう):

授業資料
講座掲載日: 
最終更新日: 

受講レビュー

全体

9件

4.6

9件の受講レビュー

  • luke90님의 프로필 이미지
    luke90

    受講レビュー 2

    平均評価 5.0

    5

    61% 受講後に作成

    大まかに概念を把握して簡単なデモを作ってみるのに良さそうです。序盤に素早く概念を掴む用途としては悪くないですね。

    • haenarashin님의 프로필 이미지
      haenarashin

      受講レビュー 9

      平均評価 4.4

      3

      61% 受講後に作成

      101クラスというよりは、専攻したり扱ったことがある人がざっと流し読みする程度のもののようです。

      • yyj님의 프로필 이미지
        yyj

        受講レビュー 3

        平均評価 5.0

        5

        30% 受講後に作成

        • nar998614님의 프로필 이미지
          nar998614

          受講レビュー 9

          平均評価 4.7

          5

          100% 受講後に作成

          核心的な内容は短時間でよく説明されているようです。

          • joshuayoon7058186님의 프로필 이미지
            joshuayoon7058186

            受講レビュー 2

            平均評価 5.0

            5

            100% 受講後に作成

            講義のおかげでMCP構造とデモ制作方法を素早く習得することができました。前半では複雑な内容を段階的によく説明してくれて、後半は実習中心の構成なので実務にすぐ活用するのに良かったです。

            ¥7,913

            dreamingbumblebeeの他の講座

            知識共有者の他の講座を見てみましょう!

            似ている講座

            同じ分野の他の講座を見てみましょう!