강의

멘토링

커뮤니티

AI Technology

/

AI Agent Development

[VLM101] ファインチューニングでマルチモーダルチャットボットを作る (feat.MCP / RunPod)

ビジョン言語モデル(Vision-Language Model, VLM)の概念と活用方法を理解し、実際にLLaVAモデルをOllamaベースの環境で実行し、MCP(Model Context Protocol)と連動する過程を実習する入門者向けの講義です。 この講義は、マルチモーダルモデルの原理、量子化(Quantization)、サービス及び統合デモ開発まで扱い、理論と実習をバランスよく提供します。

難易度 初級

受講期間 無制限

  • dreamingbumblebee
실습 중심
실습 중심
mcp
mcp
Vision Transformer
Vision Transformer
transformer
transformer
Llama
Llama
Model Context Protocol
Model Context Protocol
실습 중심
실습 중심
mcp
mcp
Vision Transformer
Vision Transformer
transformer
transformer
Llama
Llama
Model Context Protocol
Model Context Protocol

学習した受講者のレビュー

受講後に得られること

  • MCPとは何かを理解する

  • 手動でVLMチューニング及びPoCデモを作ってみる

오뜨 띠배너 (1)

ファインチューニング&チャットボット実装で学ぶ
最新マルチモーダル技術、VLMFine-tuning & Xây dựng Chatbot

私たちは毎日ChatGPT、Gemini、ClaudeのようなAIサービスを使っていますが、彼らがどのように画像を「理解」しているのか疑問に思ったことはありませんか?その核心技術こそがVision-Language Model(VLM)です。

この講義では、最新のVLMモデルであるLLaVAとQwen2.5vを直接ファインチューニングし、Olamaでローカル実行しながらMCP(Model Context Protocol)を活用して自分だけのマルチモーダルチャットボットを作ってみます。CLIP Vision Encoder、Quantization、MCP Server構築など、実務にすぐ適用できる技術も扱い、単純なAPI呼び出しを超えて、VLMの動作原理からMCP連携まで全体のワークフローを体験できます。

📌 マルチモーダルAIの進化の流れを一目で

CLIPからLLaVA OneVisionまで、VLMの発展過程と技術的脈絡を整理します。

📌 自分で作る私だけのVLMチャットボット

ファインチューニングと軽量化、Ollamaローカル実行まで-実際にモデルを構築してみます

📌 理論と実践の完璧なバランス

RunPod環境で実際にGPUを使用してモデルを訓練しテストします

📌 ディープラーニング経験者なら誰でもOK

初心者でもついてこられるよう、基礎概念から丁寧に説明します

講義で体験できる
5つのポイント

API呼び出しではなく、自ら作るマルチモーダルAI体験
モデルを単に使用するだけでなく、直接チューニングし、接続して完成させる実践中心の構成です。

VLM技術の進化の流れを段階的に体験
CLIP → LLaVA → LLaVA 1.5 → OneVisionへと続くマルチモーダルモデルの発展過程を体系的に経験します。

最新のマルチモーダル技術を反映
LLaVA OneVision、MCPなど、最新のマルチモーダルAIの流れを盛り込んでいます。

10ドルで完走可能なGPU実習設計
RunPod環境基準、負担のない費用でも全体実習が可能です。

講義で完成させる自分だけのポートフォリオ
講義修了時、自分で作ったマルチモーダルチャットボットの成果物を保有することになります。

こんな方におすすめです

🚀 AI開発でレベルアップしたいです。
ChatGPT APIしか使ったことがないけど、今度は直接AIモデルを扱ってみたい開発者 / 学生

👁 マルチモーダルAIに興味があります。
テキストと画像を同時に処理するAIはどのように動作するのか? VLMの原理が気になる方

ローカルAI環境構築が気になります。
クラウドAPIのコストが負担になり、ローカルでAIモデルを実行したい方

💡 こんな受講生に必要な講義

😤「APIを使うだけじゃ物足りない」

  • ChatGPT APIでサービスを作ったものの、コストも負担で制約も多くてもどかしい方

  • ブラックボックスのようなAIモデルの内部が気になって、直接触ってみたい方

💸「AIサービスの運営費が高すぎます」

  • OpenAI Vision APIの呼び出しコストが負担になり、自社モデルの構築を検討中のスタートアップ開発者

  • 大量の画像処理が必要なサービスを企画中の方

🚀「マルチモーダルAI専門家になりたいです」

  • テキストベースのLLMしか扱ったことがないが、AI開発者としてキャリアを発展させたい方

  • ポートフォリオに差別化されたプロジェクトを追加したい就職準備生

🤔「VLMが正確に何なのか分かりません」

  • AIトレンドは追いかけたいけれど、マルチモーダルとは何か、VLMとは何か正確に理解できていない方

  • 画像とテキストを同時に処理するAIの原理が気になる方

受講後には

  • CLIP、LLaVAシリーズの動作原理を完璧に理解できます。マルチモーダルAIももはやブラックボックスではなくなります。. AI đa phương thức sẽ không còn là hộp đen nữa.

  • OllamaとRunPodを活用した実践環境でVLMをファインチューニングし、デプロイできます。

  • Quantization技法で巨大なモデルを軽量化し、個人PCでも実行できるようになります。

  • MCP(Model Context Protocol)を活用して、複数のAIツールを統合したワークフローを構築できます。.

  • 自分だけのマルチモーダルチャットボットを最初から最後まで自分で作れるようになります。 từ đầu đến cuối.

💡 受講後に得られる具体的な変化

🎯 すぐに活用できる実務スキル

受講完了後には、次のような実践プロジェクトを一人でも進めることができます:

  • 自分だけのVLMサービス: 特定ドメイン(医療、教育、ショッピングなど)に特化した画像分析チャットボット

  • ローカルAIワークフロー: MCPを活用して複数のAIツールが協業する自動化システム

  • コスト効率的なAIサービス: API依存度を減らし、独自モデルで運営するサービス

📈キャリア発展のためのポートフォリオ

  • GitHubリポジトリ: 全体の実習コードと訓練されたモデルを整理した完成度の高いリポジトリ

  • 技術ブログのネタ: VLMファインチューニングの過程と結果をまとめた技術記事の作成が可能

  • 面接体験談: 「直接VLMをファインチューニングした経験」で差別化された面接ストーリー

🧠 深い理解と応用力

単純な使い方を超えて:

  • VLMの内部動作原理を完全に理解し、新しいモデルも素早く学習可能

  • Quantization、GGUF変換などのモデル最適化技法を他のプロジェクトにも応用

  • MCPエコシステムを活用したAIワークフロー設計能力

このような内容を学びます。

🧠 VLMの核心原理:CLIPからLLaVA OneVisionまで
マルチモーダルAIはどのように画像を「理解」するのでしょうか?CLIP Vision Encoderの原理から最新のLLaVA OneVisionまで、VLMの進化過程を段階的に学習します。

🔧 実践ファインチューニング: 自分だけのVLMを作る
RunPod GPU環境でLLaVAモデルを直接ファインチューニングしてみます。Jupyter NotebookとHuggingFace Accelerateを活用した効率的な訓練方法を学びます。

モデルの軽量化:Quantization & GGUF変換
巨大なVLMを個人PCでも実行できるようにGGUFフォーマットに変換し、Quantizationを適用する実践テクニックを学びます。

🔗 MCP統合:AIツールの協業
Model Context Protocolを活用して複数のAIモデルとツールを一つのワークフローに接続する方法を学びます。

この講義を作った人

  • 2016年〜現在:NLP & LLM開発実務者(大企業N社〜S社勤務)

受講前の参考事項

実習環境

  • 講義はMacOS基準で説明します。Windowsマシンの場合、dockerがインストールされていればほとんど問題なくついてこられます。

  • 講義ではcursorを使用します。vscodeバージョンでも無理なくついてこられると思います。

  • クラウド環境

    • RunPod: GPUインスタンスレンタルサービス、H100またはA100を使用

    • 予想費用: 全体実習基準10ドル

    • 利点: 複雑な環境設定なしですぐに実習可能

    • 注意事項

      • RunPodアカウントの作成と決済カードの登録が必要

学習資料

  • 添付するPDFおよびソースコードをご確認ください

事前知識および注意事項

  • LLM関連知識(以前のLLM 101講義参照)

  • 基本的なPython文法(クラス、関数、モジュールの使用)

  • ディープラーニング/機械学習の基礎概念(ニューラルネットワーク、訓練、推論など)

  • GPU環境でのモデル訓練経験があれば良いです(必須ではありません)

  • ターミナル/コマンドの使用に慣れていると役立ちます

こんな方に
おすすめです

学習対象は
誰でしょう?

  • Multimodal、VLMが初めての方

  • MCPベースのデモを作ってみたい人

前提知識、
必要でしょうか?

  • LLMの基礎

こんにちは
です。

312

受講生

40

受講レビュー

4

回答

4.4

講座評価

2

講座

📱contact: dreamingbumblebee@gmail.com

カリキュラム

全体

23件 ∙ (2時間 52分)

講座資料(こうぎしりょう):

授業資料
講座掲載日: 
最終更新日: 

受講レビュー

全体

13件

4.6

13件の受講レビュー

  • jukyellow7445님의 프로필 이미지
    jukyellow7445

    受講レビュー 1

    平均評価 5.0

    5

    61% 受講後に作成

    • jgryu4241님의 프로필 이미지
      jgryu4241

      受講レビュー 11

      平均評価 4.0

      4

      30% 受講後に作成

      • sangsunkim11958님의 프로필 이미지
        sangsunkim11958

        受講レビュー 1

        平均評価 5.0

        5

        61% 受講後に作成

        • kimsc님의 프로필 이미지
          kimsc

          受講レビュー 25

          平均評価 4.8

          修正済み

          5

          52% 受講後に作成

          良い講義をありがとうございます。

          • luke90님의 프로필 이미지
            luke90

            受講レビュー 2

            平均評価 5.0

            5

            61% 受講後に作成

            大まかに概念を把握して簡単なデモを作ってみるのに良さそうです。序盤に素早く概念を掴む用途としては悪くないですね。

            ¥9,602

            dreamingbumblebeeの他の講座

            知識共有者の他の講座を見てみましょう!

            似ている講座

            同じ分野の他の講座を見てみましょう!