inflearn logo

Chinh phục hoàn toàn việc chạy Gemma 4 cục bộ

Bạn sẽ được học toàn bộ quy trình tự vận hành mô hình Gemma 4 mới nhất trực tiếp trên MacBook của mình mà không phải lo lắng về chi phí API trả phí. Bạn sẽ nắm vững các kỹ thuật tối ưu hóa hiệu suất tận dụng Metal API của Apple Silicon, cách thiết lập tham số tối ưu theo dung lượng VRAM, và trang bị năng lực xây dựng cơ sở hạ tầng AI cục bộ cấp độ sản xuất dựa trên FastAPI.

2 học viên đang tham gia khóa học này

Độ khó Trung cấp trở lên

Thời gian 1 tháng

macOS
macOS
quantization
quantization
AI
AI
LLM
LLM
Gemma
Gemma
macOS
macOS
quantization
quantization
AI
AI
LLM
LLM
Gemma
Gemma

Bạn sẽ nhận được điều này sau khi học.

  • Cài đặt mô hình Gemma 4 trên MacBook Pro M2/M3 và tối ưu hóa hiệu suất dựa trên Metal API

  • Cách chọn tham số tối ưu theo dung lượng VRAM và giải quyết thực tế các sự cố Ollama

  • Đóng gói máy chủ API LLM cục bộ bằng FastAPI và triển khai sản xuất

Đây là khóa học giúp bạn làm chủ toàn bộ quy trình vận hành Gemma 4 - mô hình mới nhất của Google - trực tiếp trên máy tính cá nhân mà không phải lo lắng về chi phí API trả phí dựa trên đám mây hay rò rỉ thông tin cá nhân. Khóa học này không chỉ dừng lại ở việc hướng dẫn cách cài đặt mô hình, mà còn cung cấp sự hiểu biết sâu sắc về kiến trúc và các chiến lược tối ưu hóa cho từng loại phần cứng cụ thể.


Gemma 4 sử dụng cơ chế Hybrid attention, bố trí xen kẽ giữa Local sliding window attention và Global full attention. Lớp cuối cùng luôn kết thúc bằng Global attention, đồng thời chia sẻ Key-Value và áp dụng Proportional RoPE để tối ưu hóa bộ nhớ. Nhờ thiết kế này, lượng VRAM sử dụng không tăng lên đột biến ngay cả khi sử dụng Context 256K.

Đặc biệt, mô hình gemma4:26b nhờ vào hiệu suất của MoE nên có thể tải được chỉ với khoảng 18 GB VRAM dựa trên chuẩn Q4 Quantization, giúp giảm áp lực bộ nhớ đáng kể so với các mô hình Dense cùng kích thước. Đây là mô hình được đề xuất tối ưu nhất đã qua kiểm chứng thực tế trong môi trường M2 Max 32GB, và cũng là lựa chọn rõ ràng nhất để có thể sử dụng toàn bộ Context một cách thoải mái trong môi trường RTX 3090 hoặc RTX 4090.


Hướng dẫn chọn định dạng mô hình phù hợp với môi trường phần cứng của người dùng cũng được cung cấp. Trong trường hợp cần Offload hỗn hợp giữa CPU và GPU, chúng tôi khuyên dùng định dạng GGUF cho phép kiểm soát chi tiết, còn nếu tốc độ xử lý là ưu tiên hàng đầu trong môi trường chuyên dụng NVIDIA GPU thì định dạng EXL2 sẽ có lợi thế hơn. Tuy nhiên, do có vấn đề giảm chất lượng đầu ra khi chạy GGUF trên runtime CUDA 13.2, chúng tôi sẽ đề cập đến các cách khắc phục sự cố thực tế như duy trì môi trường CUDA 12.x an toàn. Đối với người dùng Mac, Apple Metal API sẽ tự động được phát hiện để tăng tốc GPU nên không cần thiết lập CUDA riêng biệt. Ngoài ra, lỗi file does not exist thường gặp khi cài đặt Ollama xảy ra ở các phiên bản dưới v0.20.0, vì vậy chúng tôi cũng chia sẻ bí quyết giải quyết bằng cách tải trực tiếp darwin.zip từ GitHub.


Ngoài việc vận hành mô hình, bạn cũng sẽ học cách sử dụng FastAPI để bao bọc Ollama thành một máy chủ REST API có thể gọi được từ các ứng dụng bên ngoài. Mã nguồn cơ bản được cung cấp trong bài giảng dành riêng cho việc phát triển cục bộ, vì vậy bạn cũng sẽ được học các phương pháp thiết kế kiến trúc bảo mật thiết yếu phải thêm vào khi triển khai dịch vụ thực tế ra bên ngoài, chẳng hạn như middleware xác thực header Bearer token, xử lý Rate limiting, thiết lập HTTPS và giới hạn độ dài đầu vào. Chúng tôi chờ đón những kỹ sư muốn xây dựng một Local AI Server cấp độ production chứ không chỉ dừng lại ở việc cài đặt phục vụ sở thích đơn thuần.


Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Các kỹ sư AI và nhà phát triển startup muốn tiết kiệm chi phí API trả phí đắt đỏ

  • Nhà phát triển backend cần xây dựng cơ sở hạ tầng LLM cục bộ trong môi trường coi trọng bảo mật dữ liệu

  • Nhà nghiên cứu AI muốn tận dụng tối đa hiệu suất phần cứng của dòng MacBook Pro M2/M3

Cần biết trước khi bắt đầu?

  • Kinh nghiệm sử dụng cú pháp cơ bản của Python và các lệnh terminal

  • Sở hữu phần cứng Apple Silicon từ MacBook Pro M2 trở lên

  • Khái niệm về máy chủ API và hiểu biết cơ bản về giao tiếp RESTful

Xin chào
Đây là joheejin

Xin chào, tôi là Cho Hee-jin, hiện đang hoạt động với tư cách là Kỹ sư AI và Nhà phát triển Full-stack. Tôi không chỉ dừng lại ở việc chạy các mô hình đơn thuần, mà tập trung vào việc tạo ra những 'dịch vụ sống' mang lại giá trị thực sự cho người dùng. Stack công nghệ tập trung vào thực tiễn: Dựa trên Python (FastAPI, Django, LangChain) và JavaScript/TypeScript (React, Next.js), tôi thiết kế kiến trúc Full-stack kết nối các logic AI phức tạp với trải nghiệm người dùng mượt mà. Chuyên môn đã được kiểm chứng: Tôi đã đạt được nhiều thành tích tại các cuộc thi công nghệ toàn cầu như giành giải thưởng tại NASA Space Apps Challenge và được chọn làm đại diện quốc gia tại Hult Prize. Đồng thời, tôi sở hữu bí quyết được tích lũy từ việc trực tiếp ra mắt và vận hành các dịch vụ thực tế như dịch vụ hỗ trợ phỏng vấn thời gian thực 'InterviewMate'. Nghiên cứu chuyên sâu: Vượt xa việc sử dụng đơn thuần, tôi đi sâu vào nguyên lý của các công nghệ AI mới nhất thông qua việc nghiên cứu về kiến trúc prompt và khung suy luận (STAR Framework), cũng như đăng tải bài báo trên arXiv. "Tôi không dạy những dòng code để học, tôi dạy những dòng code vận hành được trên thị trường." Nếu bạn cảm thấy bế tắc với những lý thuyết AI mơ hồ, hãy cùng tôi trải nghiệm quá trình giải quyết vấn đề khi xây dựng một sản phẩm thực tế.
Thêm

Chương trình giảng dạy

Tất cả

4 bài giảng ∙ (40phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Chưa có đủ đánh giá.
Hãy trở thành tác giả của một đánh giá giúp mọi người!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!

Ưu đãi có thời hạn, kết thúc sau 4 ngày ngày

3.782 ₫

70%

2.088.153 ₫