inflearn logo

Hiểu về kiến trúc LLM và chiến lược sử dụng GPU để nhập môn AI

Tìm hiểu về kiến trúc LLM dựa trên Transformer và chiến lược sử dụng GPU, sau đó trực tiếp thực hiện phục vụ (serving) thông qua vLLM. Đây là khóa học bao quát toàn bộ quy trình từ xây dựng đường ống (pipeline) hệ thống AI đến giám sát và sử dụng đa GPU. Tất cả quá trình này có thể được học một cách trực quan thông qua hình minh họa và thực hành mà không cần các công thức toán học hay quy trình lập trình phức tạp.

(5.0) 2 đánh giá

124 học viên

Độ khó Cơ bản

Thời gian Không giới hạn

GPU
GPU
attention-model
attention-model
AI
AI
transformer
transformer
LLM
LLM
GPU
GPU
attention-model
attention-model
AI
AI
transformer
transformer
LLM
LLM

Bạn sẽ nhận được điều này sau khi học.

  • Mô hình Transformer là gì? Hiểu về Encoder và Decoder của mô hình Transformer

  • Hiểu rõ toàn bộ luồng phát triển của cơ chế Attention: Nền tảng của mô hình Transformer, MHA, MQA, GQA, MLA, v.v.

  • Làm chủ cách sử dụng công cụ vLLM, tiêu chuẩn thực tế hiện nay

  • Giám sát chỉ số hiệu suất vLLM Serving và TTFT, TPOT

  • Thiết kế và triển khai kiến trúc đa GPU sử dụng Tensor/Pipeline/Data Parallel

  • Cốt lõi của Agent AI, thấu hiểu nguyên lý của Tool calling

  • Truyền đạt bí quyết thực tế, xây dựng đường ống hệ thống AI và giám sát hiệu suất

  • Các xu hướng mới nhất thông qua tìm hiểu bài báo nghiên cứu của DeepSeek (MLA, MTP, N-gram, v.v.)

Điều cần thiết ngay lúc này khi đã trở thành một trong ba cường quốc AI là

Để hiểu về LLM và ứng dụng vào thực tế

Lớp học chuyên sâu về LLM

Khi bước vào kỷ nguyên của các tác nhân tự trị, chúng ta đang sử dụng nhiều công cụ tác nhân như Open Canvas, Claude Code, Codex, v.v., nhưng vấn đề về
nguy cơ rò rỉ dữ liệuchi phí token không kiểm soát được vẫn không thể giải quyết.
cannot be resolved.


Câu trả lời chính là kiến trúc Hybrid AI.



Nhưng liệu có phải lúc nào public API cũng tốt hơn không?
Không hẳn là như vậy.

Dạo gần đây, có rất nhiều mô hình LLM đang được phát triển ở cả trong và ngoài nước
với sức mạnh tương đương với các API công khai (chatGPT, Claude, Sonnet, v.v.).



3 mô hình được lựa chọn dựa trên kết quả đánh giá đợt 1 về AI có chủ quyền (Sovereign AI) trong nước


Tuy nhiên, việc hiểu rõ và sử dụng LLM không hề dễ dàng.
Việc sở hữu những GPU đắt tiền rồi
sử dụng LLM có hiểu biết so với việc sử dụng mà không hiểu về nó
sẽ mang lại sự khác biệt rất lớn.


Vì vậy, bây giờ là giai đoạn để học về kiến trúc nhằm tự phục vụ (serving) LLM.


🌟 Từ Kiến trúc LLM đến Phục vụ (Serving)


Chào đón kỷ nguyên của các đại lý (agent), giờ đây là thời đại của suy luận (inference) thay vì học tập (training). Việc sử dụng thành thạo các Public API là cần thiết, nhưng nhiều doanh nghiệp vẫn ưu tiên xây dựng môi trường phục vụ (serving) tại địa phương vì nhiều lý do như bảo mật, quản trị và chi phí. Hãy cùng tìm hiểu mọi thứ từ việc thấu hiểu kiến trúc LLM để xây dựng môi trường phục vụ LLM tại địa phương, cho đến cấu trúc kiến trúc và các xu hướng phát triển LLM.


Cấu trúc cốt lõi của bài giảng

Core 1. Hiểu về các mô hình Hugging Face


Bạn cần phải hiểu rõ vô số LLM được công khai trên Hugging Face trước khi sử dụng.
Tuy nhiên, tệp config.json cung cấp thông số kỹ thuật của mô hình LLM đối với người mới bắt đầu không khác gì một bản mật mã. Đó là bởi vì bạn phải hiểu về mô hình Transformer thì mới có thể xem và hiểu được nó.

Nhưng đừng lo lắng. Sau khi nghe bài giảng này, bạn sẽ có thể trở thành một chuyên gia có thể xem và hiểu được các thông số kỹ thuật chính.

Hãy nắm vững cách giải mã tệp config.json thông qua bài giảng này.

(Đây là nội dung của phần Chương 3-5. Hãy nắm bắt tất cả các tham số chính còn lại)


Core 2. Làm chủ Attention

Khởi đầu và kết thúc của mô hình Transformer, nền tảng của các mô hình LLM hiện nay, chính là Attention.

attention-model xuất hiện vào năm 2017 nhưng
vẫn đang thống trị như một thuật toán mạnh mẽ nhất trong suốt gần 10 năm qua.
Mặc dù đã có nhiều nỗ lực để thoát khỏi cấu trúc Transformer,
nhưng cho đến nay vẫn chưa có kiến trúc nào thay thế hoàn toàn được cơ chế Attention của Transformer.

⚠️ Bạn tuyệt đối không nên chỉ tìm hiểu về Attention một cách hời hợt.


Hãy hiểu rõ nguyên lý của Attention và tìm hiểu về cả dòng chảy phát triển của nó.

(Đây là nội dung thuộc phần Chương 5-4. Dòng chảy phát triển của Attention cũng chính là dòng chảy phát triển của LLM)


Core 3. Chinh phục kiến trúc đa GPU (Multi-GPU)

Việc cấu hình đa GPU là điều bắt buộc để vận hành các mô hình LLM quy mô lớn và suy luận nhanh chóng.
Tuy nhiên, bạn có biết rằng cũng có nhiều phương pháp khác nhau để cấu hình đa GPU không?


Chúng tôi sẽ truyền đạt cho bạn các chiến lược sử dụng GPU, một cửa ngõ thiết yếu để trở thành kỹ sư AI nòng cốt.




😄 Rất đề xuất cho những người sau đây

Người mới bắt đầu học AI

Những ai đang định học Transformer và tìm hiểu về Attention nhưng đã bỏ cuộc vì các công thức toán học.

Người mới bắt đầu học AI

Những người mới chỉ sử dụng qua ChatGPT hoặc Public API. Nhưng lại muốn học hỏi về nguyên lý vận hành của mô hình LLM.

Kỹ sư AI

Kỹ sư AI cần có năng lực hiểu đặc tính kiến trúc mô hình LLM và có khả năng vận hành, quản lý trong môi trường GPU

💡 Nội dung sẽ học trong bài giảng

Bước 1. Nền tảng

  • Hiểu về mô hình Transformer

  • Tokenizer & Embedding

  • Encoder so với Decoder

  • Xem mã nguồn mô hình

Bước 2. Attention

  • Chinh phục mô hình Decoder

  • Làm chủ Attention

  • Masked Attention

  • KV Cache

Bước 3. Serving

  • vLLM Serving

  • Paged Attention

  • Tương thích với OpenAI

  • Giao thức SSE

Bước 4. Tool Call

  • Hiểu về Tool Call

  • Kiến trúc phản hồi Tool

  • Mẫu trò chuyện (Chat Template)

  • Bộ phân tích cú pháp gọi công cụ (Tool call parser)

Bước 5. Tối ưu hóa (Optimization)

  • Kiểm tra hiệu năng

  • Giám sát vLLM

  • Đa GPU & Parallelism

  • Các tính năng bổ sung của vLLM

Bước 6. Nâng cao

  • Dự đoán đa mã thông báo (Multi Token Prediction)

  • mHC

  • Engram

  • Những nỗ lực để vượt qua giới hạn

💡 Điểm cốt lõi của bài giảng

Điểm 1

Nguyên lý cốt lõi của Attention học không cần công thức


Học một cách trực quan các kỹ thuật Attention đa dạng thông qua Excel mà không cần dùng đến công thức (MHA → MQA → GQA, Sliding Window Attention)

Điểm 2

Triển khai kiến trúc AI cấu trúc 3 lớp (3-Tier)


Hiểu cấu trúc cơ bản của kiến trúc 3 lớp (3-Tier) kết nối từ OpenWebUI, FastAPI đến vLLM và học luồng cơ bản của việc tích hợp Tool.

Điểm 3

Đo lường số lượng người dùng đồng thời và mẹo vận hành vLLM

Sử dụng jMeter để thực hiện kiểm tra tải (load test) từ FastAPI → vLLM nhằm kiểm tra các chỉ số như TTFT, TPOT tùy theo số lượng người dùng đồng thời.

Điểm 4

Giám sát dịch vụ vLLM

Xây dựng đường ống (pipeline) bảng điều khiển Prometheus & Grafana để nắm vững các nguyên lý cơ bản về vận hành dịch vụ vLLM.

Điểm 5

Kiểm tra Đơn GPU / Đa GPU

Thông qua việc thực hành về 3 loại đa GPU cơ bản (Pipeline Parallel, Tensor Parallel, Data Parallel), bạn sẽ trực tiếp tận mắt xác nhận lý do tại sao cần phải có đa GPU.

Điểm 6

Chinh phục xu hướng phát triển LLM

Giới thiệu các kỹ thuật mới nhất của DeepSeek như MTP, Shared MoE, MLA, Engram và các xu hướng phát triển LLM đang được thực hiện để tối ưu hóa hiệu suất suy luận.

✅ Các công cụ được sử dụng trong bài giảng




✅ Hướng dẫn môi trường thực hành server

Việc xây dựng hệ thống vLLM sẽ được thực hiện bằng cách sử dụng Runpod. Ngoài ra, các bài thực hành sử dụng GPU T4 của Google Colab cũng sẽ được tiến hành song song. Vì GPU T4 cung cấp 15GB bộ nhớ GPU, nên những bài thực hành nào có thể thực hiện trên Colab sẽ được tiến hành tại đó.

Runpod

Chúng tôi sẽ thiết lập môi trường thực hành dựa trên luồng OpenWebUI → FastAPI → Runpod. Chúng tôi sẽ cài đặt vLLM trên máy chủ GPU của đám mây Runpod để tiến hành nhiều bài thực hành khác nhau.

Chi phí thực hành sẽ tốn khoảng $10 ~ $20 để phục vụ cho việc học tập.


Google Colab

Google Colab, vốn được coi là môi trường thực hành tiêu chuẩn cho trí tuệ nhân tạo (AI), sẽ được sử dụng cho các bài thực hành đơn giản không yêu cầu môi trường Runpod. Chúng ta sẽ tiến hành trên gói miễn phí thông thường thay vì gói Pro và sử dụng GPU T4.

✅ Hướng dẫn môi trường thực hành tại địa phương

Dịch vụ vLLM được chạy trên Runpod nhưng
OpenwebUI và FastAPI cũng sẽ được vận hành trên máy tính cá nhân mà bạn dùng để học.
Vì vậy, hãy kiểm tra xem môi trường học tập dưới đây có được đáp ứng hay không nhé!



RunpodColab được sử dụng làm môi trường thực hành chính, nhưng
Môi trường cục bộ sẽ được sử dụng để chạy OpenWebUI và FastAPI cho việc thực hành..

⚠️ Bài giảng này sẽ được cập nhật song song khi vLLM có bản cập nhật mới.

Tốc độ cập nhật của vLLM rất nhanh. Tuy nhiên, phiên bản Major hiện tại vẫn đang dừng lại ở mức 0.x.
Mặc dù vậy, nhiều doanh nghiệp đang sử dụng vLLM như một tiêu chuẩn thực tế cho công cụ suy luận (inference engine). 
vLLM không chỉ hỗ trợ mô hình Transformer vốn là trụ cột của LLM hiện nay, mà còn hỗ trợ cả kiến trúc Mamba đang nổi lên như một sự thay thế, và mỗi khi các tính năng mới được thêm vào mô hình như Multi Token Prediction, vLLM đều được cập nhật để hỗ trợ chúng. 
Khóa học này cũng sẽ được cập nhật khi có các tính năng vLLM mới hoặc các loại mô hình mới xuất hiện. 

Đừng bỏ lỡ các xu hướng của LLM.


Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Người mới bắt đầu muốn học một cách hệ thống về kỹ thuật phục vụ LLM (LLM serving) với mục tiêu trở thành kỹ sư AI.

  • Nhà phát triển muốn hiểu nguyên lý của Transformer và Attention từ góc độ thực tế mà không cần các công thức toán học phức tạp.

  • Kỹ sư Backend/Infrastructure muốn xây dựng hệ thống AI trong môi trường tối ưu hóa GPU và đa GPU

Cần biết trước khi bắt đầu?

  • Hiểu biết về cú pháp cơ bản của Python (biến, hàm, câu lệnh điều kiện, v.v.)

  • Cách sử dụng cơ bản về git

Xin chào
Đây là hyunjinkim

1,514

Học viên

95

Đánh giá

234

Trả lời

4.9

Xếp hạng

3

Các khóa học

Xin chào.

Tôi là một người đang làm việc trong lĩnh vực Dữ liệu & AI tại một tập đoàn lớn với 17 năm kinh nghiệm.

Sau khi đạt được bằng Kỹ sư Công nghệ Thông tin (Information Management Professional Engineer), tôi đang xây dựng nội dung nhằm chia sẻ những kiến thức đã tích lũy được cho nhiều người.

Rất vui được gặp bạn. :)

 

Liên hệ: hjkim_sun@naver.com

Thêm

Chương trình giảng dạy

Tất cả

54 bài giảng ∙ (14giờ 30phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

2 đánh giá

5.0

2 đánh giá

  • kjunekjune0812님의 프로필 이미지
    kjunekjune0812

    Đánh giá 2

    Đánh giá trung bình 5.0

    Đã chỉnh sửa

    5

    43% đã tham gia

    Tôi không làm việc trong lĩnh vực liên quan đến Deep Learning mà đang làm trong mảng Computer Vision (rule-based). Vì công ty cần các kỹ thuật về LLM và Deep Learning cho Vision nên tôi đang nghiên cứu về chủ đề này. Mặc dù mới chỉ học được khoảng 40% nhưng tôi cảm thấy mình phải viết đánh giá ngay nên đã đăng bài này. Tôi đã nghe rất nhiều bài giảng về Deep Learning, kể cả những bài giảng của những người nổi tiếng và được đánh giá tốt, nhưng chưa có bài giảng nào súc tích và mạch lạc như bài giảng này. Điều tuyệt vời nhất là chất lượng tài liệu bài giảng rất xuất sắc. Tác giả đã ghi lại từng phép tính ma trận bằng Excel, điều này giúp ích rất nhiều khi ôn tập. Mã nguồn Python cũng được chú thích ở rất nhiều chỗ. Chất lượng bài giảng cũng rất tốt, những phần mà học viên có thể quên đều được nhắc lại để không bị bỏ lỡ. Trong khi hầu hết các bài giảng khác chỉ trình bày phép tính một hai lần rồi bỏ qua, thì ở bài giảng này, giảng viên cùng thực hiện phép tính cho đến cuối cùng, giúp mọi thứ trở nên rõ ràng và chuẩn xác. Phần Q&A cũng được kiểm tra thường xuyên, khi tôi đặt câu hỏi là được phản hồi ngay lập tức nên rất thích. Có vẻ bài giảng được quay trong năm nay nên có rất nhiều nội dung về các xu hướng mới nhất. Có vẻ bài giảng này vẫn chưa được nhiều người biết đến, nhưng tôi thực sự nhiệt liệt đề xuất cho những ai cần học về chủ đề liên quan.

    • hyunjinkim
      Giảng viên

      Chào bạn Wonjune lee, Cảm ơn bạn rất nhiều vì những đánh giá khóa học đầy tâm huyết! Tôi đã suy nghĩ rất nhiều để nâng cao chất lượng tài liệu bài giảng, sao cho học viên nhận được những tài liệu thực sự ý nghĩa và có thể dùng để ôn tập hiệu quả ngay cả sau này. Bên cạnh đó, tôi cũng đã trăn trở rất nhiều về việc làm thế nào để truyền tải các phép toán như Attention một cách hiệu quả nhất. Kết luận của tôi là không thể chỉ nhìn qua công thức, cũng không thể chỉ truyền tải qua những ví dụ so sánh đơn giản, và càng không thể chỉ giải thích bằng mã nguồn torch. Với suy nghĩ rằng chỉ khi tận mắt theo dõi luồng dữ liệu thì mới có thể hiểu được, tôi đã cố gắng giải thích tối đa bằng Excel, và tôi rất vui vì có vẻ như điều đó đã được truyền tải tốt đến bạn :) Hy vọng bạn sẽ hoàn thành tốt phần còn lại của khóa học và thu nhận được nhiều nội dung bổ ích. Cố lên nhé!

  • nhjun873533님의 프로필 이미지
    nhjun873533

    Đánh giá 1

    Đánh giá trung bình 5.0

    5

    31% đã tham gia

    Khóa học tương tự

    Khám phá các khóa học khác trong cùng lĩnh vực!

    2.983.756 ₫