강의

멘토링

로드맵

AI Development

/

AI Agent Development

[VLM101] Tạo chatbot đa phương tiện bằng fine-tuning (feat.MCP)

Đây là khóa học dành cho người mới bắt đầu để hiểu khái niệm và cách ứng dụng của Mô hình Thị giác-Ngôn ngữ (Vision-Language Model, VLM), và thực hành quá trình chạy mô hình LLaVA trong môi trường dựa trên Ollama và liên kết với MCP (Model Context Protocol). Khóa học này bao gồm nguyên lý của mô hình đa phương thức, lượng tử hóa (Quantization), dịch vụ và phát triển demo tích hợp, cung cấp cả lý thuyết và thực hành một cách cân bằng.

(4.6) 10 đánh giá

56 học viên

  • dreamingbumblebee
실습 중심
mcp
Vision Transformer
transformer
Llama
Model Context Protocol

Đánh giá từ những học viên đầu tiên

Dịch cái này sang tiếng Việt

  • Hiểu MCP là gì

  • Tự tay tinh chỉnh VLM và tạo demo PoC

Biểu ngữ thời trang cao cấp (1)

Học tập thông qua tinh chỉnh và triển khai chatbot
Công nghệ đa phương thức mới nhất, VLM

Chúng ta sử dụng các dịch vụ AI như ChatGPT, Gemini và Claude hàng ngày, nhưng bạn đã bao giờ tự hỏi chúng "hiểu" hình ảnh như thế nào chưa? Công nghệ cốt lõi là Mô hình Ngôn ngữ Thị giác (VLM).

Trong bài giảng này, bạn sẽ học cách tinh chỉnh các mô hình VLM mới nhất, LLaVA và Qwen2.5v, chạy chúng cục bộ với Olama và tạo chatbot đa phương thức của riêng bạn bằng MCP (Giao thức Bối cảnh Mô hình). Bạn cũng sẽ tìm hiểu các công nghệ thực tế và có thể áp dụng ngay lập tức, chẳng hạn như CLIP Vision Encoder, Quantization và xây dựng MCP Server, và bạn sẽ có thể trải nghiệm toàn bộ quy trình làm việc, từ nguyên lý hoạt động của VLM đến tích hợp MCP, vượt ra ngoài các lệnh gọi API đơn giản.

📌 Cái nhìn tổng quan về sự phát triển của AI đa phương thức

Từ CLIP đến LLaVA OneVision, chúng tôi tóm tắt quá trình phát triển và bối cảnh kỹ thuật của VLM.

📌 Tạo chatbot VLM của riêng bạn

Tinh chỉnh và giảm trọng lượng, thậm chí thực hiện cục bộ Ollama - chúng ta hãy tự xây dựng mô hình

📌 Sự cân bằng hoàn hảo giữa lý thuyết và thực hành

Đào tạo và kiểm tra mô hình của bạn bằng GPU thực trong môi trường RunPod.

📌 Bất kỳ ai có kinh nghiệm về học sâu đều được

Chúng tôi giải thích các khái niệm cơ bản từng bước một để ngay cả người mới bắt đầu cũng có thể hiểu được.

Những gì bạn có thể trải nghiệm trong lớp học
5 điểm

Tự mình tạo ra trải nghiệm AI đa phương thức, không thông qua các lệnh gọi API
Đây là cấu hình thực hành, không chỉ đơn thuần là sử dụng mô hình mà còn cho phép bạn tự điều chỉnh, kết nối và hoàn thiện mô hình.

Trải nghiệm sự phát triển từng bước của công nghệ VLM
Trải nghiệm sự phát triển có hệ thống của một mô hình đa phương thức từ CLIP → LLaVA → LLaVA 1.5 → OneVision.

Phản ánh công nghệ đa phương thức mới nhất
Nó chứa các xu hướng AI đa phương thức mới nhất như LLaVA OneVision và MCP.

Thiết kế phòng thí nghiệm GPU bạn có thể hoàn thành với giá 10 đô la
Có sẵn chương trình đào tạo thực hành toàn diện với chi phí phải chăng, dựa trên môi trường RunPod.

Hoàn thiện hồ sơ năng lực của bạn thông qua các bài giảng
Sau khi hoàn thành khóa học, bạn sẽ có một chatbot đa phương thức do chính mình tạo ra.

Tôi giới thiệu điều này cho những người này

🚀 Tôi muốn nâng cao trình độ phát triển AI.
Tôi là một nhà phát triển/sinh viên chỉ sử dụng API ChatGPT và hiện muốn xử lý trực tiếp mô hình AI.

👁 Tôi quan tâm đến AI đa phương thức.
AI xử lý văn bản và hình ảnh đồng thời hoạt động như thế nào? Dành cho những ai tò mò về nguyên lý của VLM

Tôi tò mò về việc xây dựng một môi trường AI cục bộ.
Dành cho những ai muốn chạy mô hình AI cục bộ vì chi phí API đám mây khá cao

💡 Các bài giảng cần thiết cho những sinh viên này

😤 "Thật bực mình khi chỉ sử dụng API"

  • Nếu bạn đã tạo một dịch vụ bằng API ChatGPT nhưng cảm thấy thất vọng vì nó tốn kém và có nhiều hạn chế,

  • Dành cho những ai tò mò về bên trong của một mô hình AI như hộp đen và muốn chạm trực tiếp vào nó

💸 "Chi phí vận hành dịch vụ AI quá đắt"

  • Các nhà phát triển khởi nghiệp đang cân nhắc xây dựng mô hình riêng của họ do chi phí gọi OpenAI Vision API

  • Bất kỳ ai đang lập kế hoạch cho một dịch vụ đòi hỏi xử lý hình ảnh quy mô lớn

🚀 "Tôi muốn trở thành chuyên gia AI đa phương thức"

  • Bất kỳ ai muốn thăng tiến trong sự nghiệp với tư cách là nhà phát triển AI nhưng chỉ học LLM dưới hình thức văn bản

  • Người tìm việc muốn thêm một dự án khác biệt vào danh mục đầu tư của mình

🤔 "Tôi không biết chính xác VLM là gì"

  • Những người muốn theo dõi xu hướng AI nhưng không hiểu chính xác đa phương thức là gì hoặc VLM là gì

  • Dành cho những ai tò mò về các nguyên tắc của AI xử lý hình ảnh và văn bản đồng thời

Sau giờ học

  • CLIP, bạn có thể hiểu đầy đủ nguyên lý hoạt động của dòng sản phẩm LLaVA . AI đa phương thức không còn là hộp đen nữa.

  • Bạn có thể tinh chỉnh và triển khai VLM trong môi trường sản xuất bằng cách sử dụng Ollama và RunPod .

  • Bằng cách sử dụng các kỹ thuật lượng tử hóa , chúng ta có thể làm cho các mô hình lớn trở nên nhẹ hơn và chạy chúng trên máy tính cá nhân.

  • Bạn có thể xây dựng quy trình làm việc tích hợp nhiều công cụ AI bằng MCP (Giao thức ngữ cảnh mô hình) .

  • Bạn sẽ có thể xây dựng chatbot đa phương thức của riêng mình từ đầu đến cuối.

💡 Những thay đổi cụ thể bạn có thể đạt được sau khi tham gia khóa học

🎯 Kỹ năng thực tế có thể áp dụng ngay

Sau khi hoàn thành khóa học, bạn sẽ có thể tự mình thực hiện các dự án thực hành sau:

  • Dịch vụ VLM của riêng tôi : Chatbot phân tích hình ảnh chuyên biệt cho các lĩnh vực cụ thể (y tế, giáo dục, mua sắm, v.v.)

  • Quy trình làm việc AI cục bộ : Một hệ thống tự động nơi nhiều công cụ AI cộng tác bằng MCP

  • Dịch vụ AI tiết kiệm chi phí : Dịch vụ giảm sự phụ thuộc vào API và hoạt động theo mô hình riêng

📈 Hồ sơ năng lực để thăng tiến trong sự nghiệp

  • Kho lưu trữ GitHub : Kho lưu trữ đầy đủ chứa toàn bộ mã thực hành và các mô hình đã được đào tạo.

  • Tài liệu blog kỹ thuật : Có thể viết các bài đăng kỹ thuật tóm tắt quá trình tinh chỉnh VLM và kết quả.

  • Kinh nghiệm phỏng vấn : Một câu chuyện phỏng vấn khác biệt với “Kinh nghiệm tinh chỉnh VLM trực tiếp”

🧠 Hiểu sâu và ứng dụng

Ngoài cách sử dụng đơn giản:

  • Hiểu đầy đủ về hoạt động bên trong của VLM, cho phép học nhanh các mô hình mới

  • Áp dụng các kỹ thuật tối ưu hóa mô hình như Lượng tử hóa và chuyển đổi GGUF vào các dự án khác

  • Khả năng thiết kế quy trình làm việc AI bằng hệ sinh thái MCP

Tìm hiểu về những điều này.

🧠 Nguyên tắc cốt lõi của VLM: Từ CLIP đến LLaVA OneVision
Trí tuệ nhân tạo đa phương thức "hiểu" hình ảnh như thế nào? Tìm hiểu từng bước phát triển của VLM, từ các nguyên lý của CLIP Vision Encoder đến LLaVA OneVision mới nhất.

🔧 Tinh chỉnh thực tế: Tạo VLM của riêng bạn
Tinh chỉnh mô hình LLaVA trực tiếp trong môi trường GPU RunPod. Tìm hiểu các phương pháp đào tạo hiệu quả bằng Jupyter Notebook và HuggingFace Accelerate.

Làm sáng mô hình: Lượng tử hóa & Chuyển đổi GGUF
Tìm hiểu các kỹ thuật thực tế để chuyển đổi VLM lớn sang định dạng GGUF và áp dụng lượng tử hóa để chúng có thể chạy trên máy tính cá nhân.

🔗 Tích hợp MCP: Hợp tác các công cụ AI
Tìm hiểu cách kết nối nhiều mô hình và công cụ AI vào một quy trình làm việc duy nhất bằng Giao thức ngữ cảnh mô hình.

Ai đã tạo ra khóa học này

  • 2016 ~ Hiện tại: Chuyên viên phát triển NLP & LLM (Làm việc tại các công ty lớn N ~ S)

Những điều cần lưu ý trước khi tham gia lớp học

Môi trường thực hành

  • Bài giảng sẽ dựa trên nền tảng MacOS. Nếu bạn sử dụng máy tính Windows và đã cài đặt Docker, bạn có thể dễ dàng theo dõi.

  • Trong bài giảng này, chúng ta sẽ sử dụng con trỏ. Tôi nghĩ bạn có thể theo dõi phiên bản vscode mà không gặp vấn đề gì.

  • Môi trường đám mây

    • RunPod : Dịch vụ cho thuê GPU, sử dụng H100 hoặc A100

    • Chi phí ước tính : 10 đô la cho toàn bộ quá trình thực hành

    • Ưu điểm : Bạn có thể bắt đầu luyện tập ngay mà không cần bất kỳ môi trường phức tạp nào.

    • Lưu ý

      • Bạn cần tạo tài khoản RunPod và đăng ký thẻ thanh toán.

Tài liệu học tập

  • Vui lòng kiểm tra tệp PDF và mã nguồn đính kèm

Kiến thức và ghi chú của người chơi

  • Kiến thức liên quan đến LLM (tham khảo bài giảng LLM 101 trước đó)

  • Cú pháp Python cơ bản (sử dụng lớp, hàm, mô-đun)

  • Các khái niệm cơ bản về học sâu/học máy (mạng nơ-ron, đào tạo, suy luận, v.v.)

  • Kinh nghiệm đào tạo mô hình trong môi trường GPU được ưu tiên (nhưng không bắt buộc)

  • Sự quen thuộc với cách sử dụng terminal/lệnh sẽ hữu ích

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Người mới làm quen Multimodal, VLM

  • Người muốn tạo demo dựa trên MCP

Cần biết trước khi bắt đầu?

  • LLM Cơ bản

Xin chào
Đây là

260

Học viên

35

Đánh giá

4

Trả lời

4.3

Xếp hạng

2

Các khóa học

📱contact: dreamingbumblebee@gmail.com

Chương trình giảng dạy

Tất cả

23 bài giảng ∙ (2giờ 52phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

10 đánh giá

4.6

10 đánh giá

  • 내일은 한걸음 더 나아갈거야님의 프로필 이미지
    내일은 한걸음 더 나아갈거야

    Đánh giá 24

    Đánh giá trung bình 4.8

    Đã chỉnh sửa

    5

    52% đã tham gia

    좋은 강의 감사합니다.

    • MLE님의 프로필 이미지
      MLE

      Đánh giá 2

      Đánh giá trung bình 5.0

      5

      61% đã tham gia

      대략적으로 개념 살펴보고 간단한 데모 만들어보기에 좋은것 같습니다. 초반에 빠르게 개념잡는 용으로는 나쁘지 않네요

      • HAENARA SHIN님의 프로필 이미지
        HAENARA SHIN

        Đánh giá 9

        Đánh giá trung bình 4.4

        3

        61% đã tham gia

        101 클래스라기 보다는 전공했거나 다뤄본 사람이 휘리릭 넘겨 보는 정도인것 같습니다.

        • Yeojang-yoon님의 프로필 이미지
          Yeojang-yoon

          Đánh giá 3

          Đánh giá trung bình 5.0

          5

          30% đã tham gia

          • 최영선님의 프로필 이미지
            최영선

            Đánh giá 9

            Đánh giá trung bình 4.7

            5

            100% đã tham gia

            핵심적인 내용은 짧은 시간에 잘 설명하시는 것 같습니다.

            1.611.228 ₫

            Khóa học khác của dreamingbumblebee

            Hãy khám phá các khóa học khác của giảng viên!

            Khóa học tương tự

            Khám phá các khóa học khác trong cùng lĩnh vực!