강의

멘토링

커뮤니티

AI Technology

/

AI Agent Development

[VLM101] Tạo chatbot đa phương thức bằng fine-tuning (feat.MCP / RunPod)

Đây là khóa học dành cho người mới bắt đầu giúp hiểu về khái niệm và cách sử dụng Mô hình Thị giác-Ngôn ngữ (Vision-Language Model, VLM), đồng thời thực hành chạy mô hình LLaVA trên môi trường Ollama và tích hợp với MCP (Model Context Protocol). Khóa học này bao gồm nguyên lý của mô hình đa phương thức, lượng tử hóa (Quantization), phát triển dịch vụ và demo tích hợp, đồng thời cung cấp cân bằng giữa lý thuyết và thực hành.

(4.6) 13 đánh giá

91 học viên

Độ khó Cơ bản

Thời gian Không giới hạn

  • dreamingbumblebee
실습 중심
실습 중심
mcp
mcp
Vision Transformer
Vision Transformer
transformer
transformer
Llama
Llama
Model Context Protocol
Model Context Protocol
실습 중심
실습 중심
mcp
mcp
Vision Transformer
Vision Transformer
transformer
transformer
Llama
Llama
Model Context Protocol
Model Context Protocol

Đánh giá từ những học viên đầu tiên

Bạn sẽ nhận được điều này sau khi học.

  • Hiểu MCP là gì

  • Tự tay tinh chỉnh VLM và tạo demo PoC

오뜨 띠배너 (1)

Học công nghệ đa phương thức mới nhất, VLM
thông qua Fine-tuning & Xây dựng Chatbot

Chúng ta sử dụng các dịch vụ AI như ChatGPT, Gemini, Claude hàng ngày, nhưng bạn đã bao giờ tò mò về cách chúng "hiểu" hình ảnh chưa? Công nghệ cốt lõi chính là Vision-Language Model (VLM).

Trong khóa học này, chúng ta sẽ trực tiếp fine-tuning các mô hình VLM mới nhất như LLaVA và Qwen2.5v, chạy local bằng Ollama và tạo chatbot đa phương thức của riêng mình bằng cách sử dụng MCP (Model Context Protocol). Khóa học cũng đề cập đến các kỹ thuật có thể áp dụng ngay vào thực tế như CLIP Vision Encoder, Quantization, xây dựng MCP Server, đồng thời giúp bạn trải nghiệm toàn bộ quy trình từ nguyên lý hoạt động của VLM đến tích hợp MCP, vượt xa việc chỉ gọi API đơn thuần.

📌 Nắm bắt toàn cảnh tiến hóa của AI đa phương thức

Từ CLIP đến LLaVA OneVision, chúng ta sẽ tổng hợp quá trình phát triển và bối cảnh kỹ thuật của VLM.

📌 Tạo chatbot VLM của riêng bạn

Fine-tuning và tối ưu hóa, chạy local với Ollama - Tự tay xây dựng mô hình

📌 Sự cân bằng hoàn hảo giữa lý thuyết và thực hành

Huấn luyện và kiểm tra mô hình thực tế sử dụng GPU trong môi trường RunPod

📌 Bất kỳ ai có kinh nghiệm về deep learning đều có thể tham gia

Giải thích từng bước từ các khái niệm cơ bản để người mới bắt đầu cũng có thể theo kịp

5 điểm nổi bật
bạn sẽ trải nghiệm trong khóa học

Trải nghiệm AI đa phương thức tự tạo, không phải gọi API
Vượt qua việc chỉ sử dụng mô hình, đây là cấu trúc thực chiến tập trung vào việc tự tay tinh chỉnh, kết nối và hoàn thiện.

Trải nghiệm từng bước quá trình tiến hóa của công nghệ VLM
Trải nghiệm có hệ thống quá trình phát triển mô hình đa phương thức từ CLIP → LLaVA → LLaVA 1.5 → OneVision.

Phản ánh công nghệ đa phương thức mới nhất
Bao gồm các xu hướng AI đa phương thức mới nhất như LLaVA OneVision, MCP.

Thiết kế thực hành GPU hoàn thành được với 10 đô la
Dựa trên môi trường RunPod, có thể thực hành toàn bộ với chi phí không đáng kể.

Hoàn thiện portfolio của riêng bạn qua khóa học
Khi hoàn thành khóa học, bạn sẽ sở hữu sản phẩm chatbot đa phương thức do chính tay mình tạo ra.

Khóa học này dành cho những ai

🚀 Tôi muốn nâng cấp lên phát triển AI.
Các lập trình viên / sinh viên chỉ mới sử dụng ChatGPT API và giờ muốn trực tiếp làm việc với mô hình AI

👁 Tôi quan tâm đến AI đa phương thức.
AI xử lý đồng thời văn bản và hình ảnh hoạt động như thế nào? Những ai tò mò về nguyên lý của VLM

Tôi muốn tìm hiểu về xây dựng môi trường AI cục bộ.
Những ai muốn chạy mô hình AI trên máy cục bộ vì chi phí API đám mây quá cao

💡 Khóa học cần thiết cho những học viên như thế này

😤 "Chỉ dùng API thôi thì đáp đáp quá"

  • Bạn đã tạo dịch vụ bằng ChatGPT API nhưng cảm thấy bế tắc vì chi phí cao và nhiều hạn chế

  • Những người tò mò về bên trong mô hình AI như hộp đen và muốn trực tiếp thử nghiệm

💸 "Chi phí vận hành dịch vụ AI quá đắt"

  • Nhà phát triển startup đang cân nhắc xây dựng mô hình riêng do chi phí gọi OpenAI Vision API quá cao

  • Những người đang lên kế hoạch cho dịch vụ cần xử lý lượng lớn hình ảnh

🚀 "Tôi muốn trở thành chuyên gia AI đa phương thức"

  • Những người muốn phát triển sự nghiệp với tư cách là nhà phát triển AI nhưng chỉ mới làm việc với LLM dựa trên văn bản

  • Sinh viên chuẩn bị việc làm muốn thêm dự án khác biệt vào portfolio

🤔 "Tôi không hiểu chính xác VLM là gì"

  • Những người muốn theo kịp xu hướng AI nhưng chưa hiểu rõ multimodal là gì, VLM là gì

  • Những người tò mò về nguyên lý hoạt động của AI xử lý đồng thời hình ảnh và văn bản

Sau khi hoàn thành khóa học

  • Bạn có thể hiểu hoàn hảo nguyên lý hoạt động của CLIP và dòng LLaVA. AI đa phương thức sẽ không còn là hộp đen nữa.

  • Trong môi trường thực tế sử dụng Ollama và RunPod, bạn có thể fine-tune và triển khai VLM.

  • Kỹ thuật Quantization giúp giảm kích thước các mô hình lớn để có thể chạy ngay cả trên PC cá nhân.

  • Bạn có thể xây dựng quy trình làm việc tích hợp nhiều công cụ AI bằng cách sử dụng MCP (Model Context Protocol).

  • Bạn có thể tự tay tạo ra chatbot đa phương thức của riêng mình từ đầu đến cuối.

💡 Những thay đổi cụ thể bạn có thể đạt được sau khóa học

🎯 Kỹ năng thực tế có thể áp dụng ngay lập tức

Sau khi hoàn thành khóa học, bạn có thể tự mình thực hiện các dự án thực tế như sau:

  • Dịch vụ VLM của riêng bạn: Chatbot phân tích hình ảnh chuyên biệt cho các lĩnh vực cụ thể (y tế, giáo dục, mua sắm, v.v.)

  • Quy trình làm việc AI cục bộ: Hệ thống tự động hóa nơi nhiều công cụ AI cộng tác sử dụng MCP

  • Dịch vụ AI tiết kiệm chi phí: Dịch vụ vận hành bằng mô hình riêng, giảm sự phụ thuộc vào API

📈 Portfolio để phát triển sự nghiệp

  • Kho lưu trữ GitHub: Repository hoàn chỉnh với toàn bộ mã thực hành và mô hình đã được huấn luyện

  • Chủ đề cho blog kỹ thuật: Có thể viết bài đăng kỹ thuật tổng hợp quá trình và kết quả fine-tuning VLM

  • Câu chuyện phỏng vấn: Câu chuyện phỏng vấn khác biệt với "kinh nghiệm tự mình fine-tuning VLM"

🧠 Hiểu biết sâu sắc và khả năng ứng dụng

Vượt ra ngoài cách sử dụng đơn giản:

  • Hiểu hoàn toàn nguyên lý hoạt động bên trong của VLM để có thể học các mô hình mới một cách nhanh chóng

  • Quantization, chuyển đổi GGUF và các kỹ thuật tối ưu hóa mô hình khác có thể áp dụng cho các dự án khác

  • Khả năng thiết kế quy trình làm việc AI sử dụng hệ sinh thái MCP

Bạn sẽ học được những nội dung này.

🧠 Nguyên lý cốt lõi của VLM: Từ CLIP đến LLaVA OneVision
AI đa phương thức hiểu 'hình ảnh' như thế nào? Từ nguyên lý của CLIP Vision Encoder đến LLaVA OneVision mới nhất, học từng bước quá trình tiến hóa của VLM.

🔧 Tinh chỉnh thực chiến: Tạo VLM của riêng bạn
Trực tiếp tinh chỉnh mô hình LLaVA trong môi trường GPU RunPod. Học phương pháp huấn luyện hiệu quả sử dụng Jupyter Notebook và HuggingFace Accelerate.

Tối ưu hóa mô hình: Quantization & Chuyển đổi GGUF
Học các kỹ thuật thực tế để chuyển đổi VLM lớn sang định dạng GGUF và áp dụng Quantization để có thể chạy trên PC cá nhân.

🔗 Tích hợp MCP: Sự cộng tác của các công cụ AI
Học cách kết nối nhiều mô hình AI và công cụ thành một quy trình làm việc thống nhất bằng cách sử dụng Model Context Protocol.

Người tạo ra khóa học này

  • 2016 ~ Hiện tại: Chuyên gia phát triển NLP & LLM (Làm việc tại các tập đoàn lớn N và S)

Lưu ý trước khi học

Môi trường thực hành

  • Khóa học được giảng dạy dựa trên MacOS. Nếu bạn sử dụng máy Windows và đã cài đặt docker thì có thể theo dõi hầu hết nội dung.

  • Trong khóa học sử dụng cursor. Tôi nghĩ bạn cũng có thể theo dõi tốt với phiên bản vscode.

  • Môi trường đám mây

    • RunPod: Dịch vụ thuê GPU instance, sử dụng H100 hoặc A100

    • Chi phí dự kiến: 10 đô la cho toàn bộ khóa thực hành

    • Ưu điểm: Có thể thực hành ngay lập tức mà không cần cài đặt môi trường phức tạp

    • Lưu ý

      • Cần tạo tài khoản RunPod và đăng ký thẻ thanh toán

Tài liệu học tập

  • Bạn có thể kiểm tra file PDF và mã nguồn đính kèm

Kiến thức tiên quyết và lưu ý

  • Kiến thức liên quan đến LLM (tham khảo khóa học LLM 101 trước đó)

  • Cú pháp Python cơ bản (sử dụng class, hàm, module)

  • Các khái niệm cơ bản về Deep Learning/Machine Learning (mạng neural, huấn luyện, suy luận, v.v.)

  • Có kinh nghiệm huấn luyện mô hình trên môi trường GPU sẽ tốt (không bắt buộc)

  • Quen thuộc với việc sử dụng terminal/dòng lệnh sẽ có ích

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Người mới bắt đầu với Multimodal, VLM

  • Người muốn tạo demo dựa trên MCP

Cần biết trước khi bắt đầu?

  • Cơ bản về LLM

Xin chào
Đây là

312

Học viên

40

Đánh giá

4

Trả lời

4.4

Xếp hạng

2

Các khóa học

📱contact: dreamingbumblebee@gmail.com

Chương trình giảng dạy

Tất cả

23 bài giảng ∙ (2giờ 52phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

13 đánh giá

4.6

13 đánh giá

  • jukyellow7445님의 프로필 이미지
    jukyellow7445

    Đánh giá 1

    Đánh giá trung bình 5.0

    5

    61% đã tham gia

    • jgryu4241님의 프로필 이미지
      jgryu4241

      Đánh giá 11

      Đánh giá trung bình 4.0

      4

      30% đã tham gia

      • sangsunkim11958님의 프로필 이미지
        sangsunkim11958

        Đánh giá 1

        Đánh giá trung bình 5.0

        5

        61% đã tham gia

        • kimsc님의 프로필 이미지
          kimsc

          Đánh giá 25

          Đánh giá trung bình 4.8

          Đã chỉnh sửa

          5

          52% đã tham gia

          Cảm ơn bạn vì bài giảng hay.

          • luke90님의 프로필 이미지
            luke90

            Đánh giá 2

            Đánh giá trung bình 5.0

            5

            61% đã tham gia

            Về cơ bản thì có vẻ tốt để tìm hiểu khái niệm và tạo demo đơn giản. Để nắm bắt khái niệm nhanh chóng ở giai đoạn đầu thì cũng không tệ nhỉ

            1.609.087 ₫

            Khóa học khác của dreamingbumblebee

            Hãy khám phá các khóa học khác của giảng viên!

            Khóa học tương tự

            Khám phá các khóa học khác trong cùng lĩnh vực!