inflearn logo

Hiểu về kiến trúc LLM và chiến lược sử dụng GPU để nhập môn AI

Tìm hiểu về kiến trúc LLM dựa trên Transformer và chiến lược sử dụng GPU, sau đó trực tiếp thực hiện phục vụ (serving) thông qua vLLM. Đây là khóa học bao quát toàn bộ quy trình từ xây dựng đường ống (pipeline) hệ thống AI đến giám sát và sử dụng đa GPU. Tất cả quá trình này có thể được học một cách trực quan thông qua hình minh họa và thực hành mà không cần các công thức toán học hay quy trình lập trình phức tạp.

24 học viên đang tham gia khóa học này

Độ khó Cơ bản

Thời gian Không giới hạn

GPU
GPU
attention-model
attention-model
AI
AI
transformer
transformer
LLM
LLM
GPU
GPU
attention-model
attention-model
AI
AI
transformer
transformer
LLM
LLM

Bạn sẽ nhận được điều này sau khi học.

  • Mô hình Transformer là gì? Hiểu về Encoder và Decoder của mô hình Transformer

  • Hiểu rõ toàn bộ luồng phát triển của cơ chế Attention: Nền tảng của mô hình Transformer, MHA, MQA, GQA, MLA, v.v.

  • Làm chủ cách sử dụng công cụ vLLM, tiêu chuẩn thực tế hiện nay

  • Giám sát chỉ số hiệu suất vLLM Serving và TTFT, TPOT

  • Thiết kế và triển khai kiến trúc đa GPU sử dụng Tensor/Pipeline/Data Parallel

  • Cốt lõi của Agent AI, thấu hiểu nguyên lý của Tool calling

  • Truyền đạt bí quyết thực tế, xây dựng đường ống hệ thống AI và giám sát hiệu suất

  • Các xu hướng mới nhất thông qua tìm hiểu bài báo nghiên cứu của DeepSeek (MLA, MTP, N-gram, v.v.)

Điều cần thiết ngay lúc này, khi đã trở thành một trong 3 cường quốc AI, là

Để hiểu về LLM và áp dụng vào thực tế

Lớp học chuyên sâu về LLM

Khi bước vào kỷ nguyên của các tác nhân tự trị, chúng ta đang sử dụng nhiều công cụ tác nhân như Open Canvas, Claude Code, Codex, v.v., nhưng
vấn đề về nguy cơ rò rỉ dữ liệuchi phí token không kiểm soát được vẫn chưa thể giải quyết.


Câu trả lời chính là kiến trúc Hybrid AI.



Nhưng liệu có phải lúc nào public API cũng tốt hơn không?
Không hẳn là như vậy.

Dạo gần đây, có rất nhiều mô hình LLM đang được phát triển ở cả trong và ngoài nước
với sức mạnh tương đương với các API công khai (chatGPT, Claude, Sonnet, v.v.).



3 mô hình được lựa chọn dựa trên kết quả đánh giá đợt 1 về Sovereign AI trong nước


Tuy nhiên, việc hiểu rõ và sử dụng LLM không hề dễ dàng.
Việc sở hữu những GPU đắt tiền rồi
sử dụng LLM có sự hiểu biết so với việc sử dụng mà không hiểu biết
sẽ mang lại sự khác biệt rất lớn.


Vì vậy, hiện tại là giai đoạn cần học về kiến trúc để tự triển khai dịch vụ (serving) LLM.


🌟 Từ kiến trúc LLM đến phục vụ (Serving)


Chào đón kỷ nguyên của các đại lý (agent), giờ đây là thời đại của suy luận (inference) thay vì học tập (training). Việc sử dụng thành thạo các Public API là cần thiết, nhưng nhiều doanh nghiệp vẫn ưu tiên xây dựng môi trường phục vụ (serving) tại địa phương vì nhiều lý do như bảo mật, quản trị và chi phí. Hãy cùng tìm hiểu mọi thứ từ việc thấu hiểu kiến trúc LLM để xây dựng môi trường phục vụ LLM tại địa phương, cho đến cấu trúc kiến trúc và các xu hướng phát triển LLM.


Cấu trúc Core của bài giảng

Core 1. Hiểu về các mô hình Hugging Face


Bạn cần phải hiểu rõ về vô số LLM được công khai trên Hugging Face trước khi sử dụng chúng.
Tuy nhiên, tệp config.json cung cấp thông số kỹ thuật của mô hình LLM đối với người mới bắt đầu chẳng khác nào một bản mật mã. Bởi vì bạn phải hiểu về mô hình Transformer thì mới có thể đọc hiểu được nó.

Nhưng đừng lo lắng. Sau khi nghe bài giảng này, bạn sẽ có thể trở thành một chuyên gia có thể xem và hiểu được các thông số kỹ thuật chính.

Hãy nắm vững cách giải mã tệp config.json thông qua bài giảng này.

(Nội dung thuộc chương 3-5. Hãy nắm bắt tất cả các tham số chính còn lại)


Core 2. Làm chủ Attention

Khởi đầu và kết thúc của mô hình Transformer, nền tảng của các mô hình LLM hiện nay, chính là Attention.

attention-model xuất hiện vào năm 2017 nhưng
vẫn đang thống trị như một thuật toán mạnh mẽ nhất trong gần 10 năm qua.
Mặc dù đã có nhiều nỗ lực để thoát khỏi cấu trúc Transformer,
nhưng cho đến nay vẫn chưa có kiến trúc nào thay thế hoàn toàn được cơ chế Attention của Transformer.

⚠️ Bạn tuyệt đối không nên chỉ tìm hiểu về Attention một cách hời hợt.


Hãy hiểu rõ nguyên lý của Attention và tìm hiểu về cả luồng phát triển của nó.

(Đây là nội dung thuộc chương 5-4. Dòng chảy phát triển của Attention cũng chính là dòng chảy phát triển của LLM)


Core 3. Chinh phục kiến trúc đa GPU (Multi-GPU)

Việc cấu hình đa GPU là điều bắt buộc để vận hành các mô hình LLM quy mô lớn và suy luận nhanh chóng.
Tuy nhiên, bạn có biết rằng cũng có nhiều phương pháp khác nhau để cấu hình đa GPU không?


Chúng tôi sẽ truyền đạt các chiến lược sử dụng GPU, một cửa ngõ thiết yếu để trở thành kỹ sư AI nòng cốt.




😄 Rất đề xuất cho những người sau đây

Người mới bắt đầu học AI

Những người đang học Transformer và tìm hiểu về Attention nhưng đã bỏ cuộc vì các công thức toán học

Người mới bắt đầu học AI

Những người mới chỉ sử dụng qua ChatGPT hoặc Public API, nhưng muốn tìm hiểu nguyên lý vận hành của mô hình LLM.

Kỹ sư AI

Kỹ sư AI cần có năng lực hiểu đặc tính kiến trúc mô hình LLM và có khả năng vận hành, quản lý trong môi trường GPU

💡 Nội dung học trong bài giảng

Bước 1. Nền tảng

  • Hiểu về mô hình Transformer

  • Tokenizer & Embedding

  • Encoder so với Decoder

  • Xem mã nguồn mô hình

Bước 2. Attention

  • Chinh phục mô hình Decoder

  • Làm chủ Attention

  • Masked Attention

  • KV Cache

Bước 3. Serving

  • vLLM Serving

  • Paged Attention

  • Tương thích với OpenAI

  • Giao thức SSE

Bước 4. Tool Call

  • Tìm hiểu về Tool Call

  • Kiến trúc phản hồi Tool

  • Mẫu trò chuyện (Chat Template)

  • Bộ phân tích cú pháp Tool call

Bước 5. Tối ưu hóa (Optimization)

  • Kiểm tra hiệu năng

  • Giám sát vLLM

  • Đa GPU & Parallelism

  • Các tính năng bổ sung của vLLM

Bước 6. Nâng cao

  • Dự đoán đa mã thông báo (Multi Token Prediction)

  • mHC

  • Engram

  • Những nỗ lực để vượt qua giới hạn

💡 Điểm cốt lõi của bài giảng

Điểm 1

Nguyên lý cốt lõi của Attention học không cần công thức


Học một cách trực quan các kỹ thuật Attention khác nhau thông qua Excel mà không cần dùng đến công thức (MHA → MQA → GQA, Sliding Window Attention)

Điểm 2

Triển khai kiến trúc AI theo cấu trúc 3 lớp (3-Tier)


Hiểu cấu trúc cơ bản của kiến trúc 3 lớp (3-Tier) kết nối từ OpenWebUI, FastAPI đến vLLM và học luồng cơ bản của việc tích hợp Tool.

Điểm 3

Đo lường số lượng người dùng đồng thời và mẹo vận hành vLLM

Sử dụng jMeter để thực hiện kiểm tra tải (load test) từ FastAPI → vLLM nhằm xác nhận các chỉ số như TTFT, TPOT tùy theo số lượng người dùng đồng thời.

Point 4

Giám sát dịch vụ vLLM

Xây dựng pipeline dashboard Prometheus & Grafana để nắm vững các nguyên lý cơ bản về vận hành dịch vụ vLLM.

Điểm 5

Kiểm tra Đơn GPU / Đa GPU

Thông qua việc thực hành về 3 loại đa GPU cơ bản (Pipeline Parallel, Tensor Parallel, Data Parallel), bạn sẽ trực tiếp tận mắt xác nhận tại sao đa GPU lại cần thiết.

Điểm 6

Chinh phục xu hướng phát triển LLM

Giới thiệu các kỹ thuật mới nhất của DeepSeek như MTP, Shared MoE, MLA, Engram và các xu hướng phát triển LLM đang được thực hiện để tối ưu hóa hiệu quả suy luận.

✅ Các công cụ sử dụng trong bài giảng




✅ Hướng dẫn môi trường thực hành server

Việc xây dựng hệ thống vLLM sẽ được thực hiện bằng cách sử dụng Runpod. Ngoài ra, các bài thực hành sử dụng GPU T4 của Google Colab cũng sẽ được tiến hành song song. Vì GPU T4 cung cấp 15GB bộ nhớ GPU, nên những bài thực hành nào có thể thực hiện trên Colab sẽ được tiến hành tại đó.

Runpod

Chúng tôi sẽ thiết lập môi trường thực hành dựa trên luồng OpenWebUI → FastAPI → Runpod. Chúng tôi sẽ cài đặt vLLM trên máy chủ GPU của đám mây Runpod để tiến hành nhiều bài thực hành khác nhau.

Chi phí thực hành sẽ tốn khoảng $10 ~ $20.


Google Colab

Google Colab, vốn được coi là môi trường thực hành tiêu chuẩn cho trí tuệ nhân tạo (AI), sẽ được sử dụng cho các bài thực hành đơn giản không yêu cầu môi trường Runpod. Chúng ta sẽ tiến hành trên gói miễn phí thông thường thay vì gói Pro và sử dụng GPU T4.

✅ Hướng dẫn môi trường thực hành tại địa phương

Dịch vụ vLLM được chạy trên Runpod nhưng
OpenwebUI và FastAPI cũng sẽ được chạy trên máy tính cá nhân của bạn khi tham gia khóa học.
Vì vậy, vui lòng kiểm tra xem môi trường học tập dưới đây có được đáp ứng hay không!



RunpodColab được sử dụng làm môi trường thực hành chính, nhưng
Môi trường cục bộ sẽ được sử dụng để chạy OpenWebUI và FastAPI cho việc thực hành.

⚠️ Bài giảng này sẽ được cập nhật ngay khi vLLM có bản cập nhật mới.

Tốc độ cập nhật của vLLM rất nhanh. Tuy nhiên, phiên bản chính (Major version) hiện vẫn đang dừng lại ở mức 0.x.
Mặc dù vậy, nhiều doanh nghiệp vẫn đang sử dụng vLLM như một tiêu chuẩn thực tế cho công cụ suy luận (inference engine).
vLLM không chỉ hỗ trợ mô hình Transformer vốn là trụ cột của LLM hiện nay, mà còn hỗ trợ cả kiến trúc Mamba đang nổi lên như một sự thay thế. Khi các tính năng mới như Multi Token Prediction được thêm vào mô hình, vLLM cũng được cập nhật liên tục để hỗ trợ chúng.
Khóa học này cũng sẽ được cập nhật khi có các tính năng vLLM mới hoặc các loại mô hình mới ra đời.

Đừng bỏ lỡ các xu hướng của LLM.


Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Người mới bắt đầu muốn học một cách hệ thống về kỹ thuật phục vụ LLM (LLM serving) với mục tiêu trở thành kỹ sư AI.

  • Nhà phát triển muốn hiểu nguyên lý của Transformer và Attention từ góc độ thực tế mà không cần các công thức toán học phức tạp.

  • Kỹ sư Backend/Infrastructure muốn xây dựng hệ thống AI trong môi trường tối ưu hóa GPU và đa GPU

Cần biết trước khi bắt đầu?

  • Hiểu biết về cú pháp cơ bản của Python (biến, hàm, câu lệnh điều kiện, v.v.)

  • Cách sử dụng cơ bản về git

Xin chào
Đây là hyunjinkim

1,406

Học viên

93

Đánh giá

233

Trả lời

4.9

Xếp hạng

3

Các khóa học

Xin chào.

Tôi là một người đang làm việc trong lĩnh vực Dữ liệu & AI tại một tập đoàn lớn với 17 năm kinh nghiệm.

Sau khi đạt được bằng Kỹ sư Công nghệ Thông tin (Information Management Professional Engineer), tôi đang xây dựng nội dung nhằm chia sẻ những kiến thức đã tích lũy được cho nhiều người.

Rất vui được gặp bạn. :)

 

Liên hệ: hjkim_sun@naver.com

Thêm

Chương trình giảng dạy

Tất cả

54 bài giảng ∙ (13giờ 33phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Chưa có đủ đánh giá.
Hãy trở thành tác giả của một đánh giá giúp mọi người!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!

Ưu đãi có thời hạn

42.900 ₫

70%

2.984.322 ₫