Hiểu về kiến trúc LLM và chiến lược sử dụng GPU để nhập môn AI

Tìm hiểu về kiến trúc LLM dựa trên Transformer và chiến lược sử dụng GPU, đồng thời thực hành trực tiếp quy trình phục vụ (serving) thực tế bằng vLLM. Khóa học bao gồm toàn bộ quy trình làm việc thực tế từ xây dựng đường ống hệ thống AI đến giám sát và sử dụng đa GPU, được thiết kế để người học có thể hiểu một cách trực quan thông qua hình ảnh và thực hành mà không cần các công thức phức tạp.

(5.0) 12 đánh giá

184 học viên

Độ khó Cơ bản

Thời gian Không giới hạn

GPU
GPU
attention-model
attention-model
AI
AI
transformer
transformer
LLM
LLM
GPU
GPU
attention-model
attention-model
AI
AI
transformer
transformer
LLM
LLM

Đánh giá từ những học viên đầu tiên

5.0

5.0

WonJune Lee

43% đã tham gia

Tôi không làm việc trong lĩnh vực liên quan đến Deep Learning mà đang làm trong mảng Computer Vision (rule-based). Vì công ty cần các kỹ thuật về LLM và Deep Learning cho Vision nên tôi đang nghiên cứu về chủ đề này. Mặc dù mới chỉ học được khoảng 40% nhưng tôi cảm thấy mình phải viết đánh giá ngay nên đã đăng bài này. Tôi đã nghe rất nhiều bài giảng về Deep Learning, kể cả những bài giảng của những người nổi tiếng và được đánh giá tốt, nhưng chưa có bài giảng nào súc tích và mạch lạc như bài giảng này. Điều tuyệt vời nhất là chất lượng tài liệu bài giảng rất xuất sắc. Tác giả đã ghi lại từng phép tính ma trận bằng Excel, điều này giúp ích rất nhiều khi ôn tập. Mã nguồn Python cũng được chú thích ở rất nhiều chỗ. Chất lượng bài giảng cũng rất tốt, những phần mà học viên có thể quên đều được nhắc lại để không bị bỏ lỡ. Trong khi hầu hết các bài giảng khác chỉ trình bày phép tính một hai lần rồi bỏ qua, thì ở bài giảng này, giảng viên cùng thực hiện phép tính cho đến cuối cùng, giúp mọi thứ trở nên rõ ràng và chuẩn xác. Phần Q&A cũng được kiểm tra thường xuyên, khi tôi đặt câu hỏi là được phản hồi ngay lập tức nên rất thích. Có vẻ bài giảng được quay trong năm nay nên có rất nhiều nội dung về các xu hướng mới nhất. Có vẻ bài giảng này vẫn chưa được nhiều người biết đến, nhưng tôi thực sự nhiệt liệt đề xuất cho những ai cần học về chủ đề liên quan.

5.0

김민서

31% đã tham gia

Giúp ích rất nhiều ạ

5.0

logt

100% đã tham gia

Tôi đã hoàn thành khóa học rồi~! Thật sự cảm ơn bạn rất nhiều vì đã cung cấp một chương trình đào tạo chất lượng!! Ngoại trừ những lưu ý tôi đã để lại trong phần QnA, tôi không gặp vấn đề gì khi thực hiện tất cả các bài thực hành trên nền tảng Windows cả~!

Bạn sẽ nhận được điều này sau khi học.

  • Hiểu cấu trúc encoder-decoder và nguyên lý hoạt động cốt lõi của mô hình Transformer

  • Hiểu luồng phát triển của các cơ chế Attention mới nhất như MHA, MQA, GQA, MLA, v.v.

  • Thực hành cách sử dụng công cụ vLLM, tiêu chuẩn thực tế trong việc phục vụ AI hiện nay.

  • Giám sát các chỉ số hiệu suất chính như TTFT, TPOT trong môi trường phục vụ vLLM

  • Thiết kế và triển khai kiến trúc đa GPU sử dụng Tensor/Pipeline/Data Parallel

  • Hiểu khái niệm cốt lõi của Agent AI và nguyên lý hoạt động của Tool Calling

  • Kinh nghiệm xây dựng đường ống hệ thống AI (AI system pipeline) và giám sát hiệu suất từ góc độ thực tế trong công việc.

  • Hiểu các xu hướng LLM mới nhất như MLA, MTP, N-gram dựa trên các bài báo nghiên cứu mới nhất

Thời đại AI Agent,
giờ đây năng lực thực tiễn để thấu hiểu hệ thống AI đang trở nên quan trọng hơn bao giờ hết

Từ cấu trúc LLM dựa trên Transformer
đến việc sử dụng GPU, vLLM serving và chiến lược đa GPU

Lớp học thực hành kiến trúc LLM

Trong kỷ nguyên AI Agent tự hành,
bạn có thể tận dụng nhiều công cụ Agent và Public API khác nhau như OpenAI, Claude, Codex.

Tuy nhiên, trong môi trường dịch vụ thực tế, chúng ta cần phải cân nhắc đồng thời cả
bảo mật dữ liệu, chi phí mạng, chi phí token và quản lý tài nguyên GPU.

Vì vậy, điều quan trọng là
sự hiểu biết về kiến trúc Hybrid AI, nơi kết hợp giữa Public API và LLM dựa trên GPU riêng
sao cho phù hợp với từng tình huống.


Vậy thì việc chỉ sử dụng Public API có luôn là lựa chọn tốt nhất không?

Không hẳn là như vậy.

Dạo gần đây, có rất nhiều LLM đang được phát triển cả trong và ngoài nước
với sức mạnh tương đương với các public API (chatGPT, Claude, Sonnet, v.v.).



3 mô hình được lựa chọn dựa trên kết quả đánh giá đợt 1 của Sovereign AI trong nước


Tuy nhiên, việc hiểu rõ và sử dụng LLM không hề dễ dàng.
Việc mua GPU đắt tiền rồi
sử dụng LLM khi đã hiểu rõ so với việc sử dụng mà không hiểu
sẽ mang lại sự khác biệt rất lớn.

Vì vậy, bây giờ là giai đoạn để học về kiến trúc nhằm tự phục vụ (serving) LLM.


🌟 Từ Kiến trúc LLM đến Phục vụ (Serving)


Chào đón kỷ nguyên của các đại lý (agent), giờ đây là thời đại của suy luận (inference) thay vì huấn luyện (training). Việc sử dụng thành thạo các Public API là cần thiết, nhưng nhiều doanh nghiệp vẫn ưu tiên xây dựng môi trường phục vụ (serving) tại địa phương vì nhiều lý do như bảo mật, quản trị và chi phí. Hãy học tất cả mọi thứ, từ việc thấu hiểu kiến trúc LLM để xây dựng môi trường phục vụ LLM tại địa phương, cho đến cấu trúc kiến trúc và các xu hướng phát triển LLM.


Cấu trúc cốt lõi của bài giảng

Core 1. Hiểu về các mô hình Hugging Face


Bạn cần phải hiểu rõ về vô số LLM được công khai trên Hugging Face trước khi sử dụng chúng.
Tuy nhiên, tệp config.json cung cấp thông số kỹ thuật của mô hình LLM đối với người mới bắt đầu chẳng khác nào một bản mật mã. Bởi vì bạn phải hiểu về mô hình Transformer thì mới có thể đọc hiểu được nó.

Nhưng đừng lo lắng. Sau khi nghe bài giảng này, bạn sẽ có thể trở thành một chuyên gia có thể xem và hiểu được các thông số kỹ thuật chính.

Hãy nắm vững cách giải mã tệp config.json thông qua bài giảng này.

(Đây là nội dung của phần Chương 3-5. Hãy nắm bắt tất cả các tham số chính còn lại nhé)


Core 2. Làm chủ Attention

Điểm bắt đầu và kết thúc của mô hình Transformer, nền tảng của các mô hình LLM hiện nay, chính là Attention.

attention-model đã xuất hiện từ năm 2017 nhưng
vẫn đang thống trị như một thuật toán mạnh mẽ nhất trong gần 10 năm qua.
Mặc dù đã có nhiều nỗ lực để thoát khỏi cấu trúc Transformer,
nhưng cho đến nay vẫn chưa có kiến trúc nào thay thế hoàn toàn được cơ chế Attention của Transformer.

⚠️ Tuyệt đối không được tìm hiểu về Attention một cách hời hợt.


Hãy hiểu rõ nguyên lý của Attention và tìm hiểu về cả quá trình phát triển của nó.

(Đây là nội dung thuộc phần Chương 5-4. Dòng chảy phát triển của Attention cũng chính là dòng chảy phát triển của LLM)


Core 3. Chinh phục kiến trúc đa GPU (Multi-GPU)

Việc cấu hình đa GPU là điều bắt buộc để vận hành các mô hình LLM quy mô lớn và suy luận nhanh chóng.
Nhưng bạn có biết rằng cũng có nhiều phương pháp khác nhau để cấu hình đa GPU không?


Chúng tôi sẽ truyền đạt cho bạn các chiến lược sử dụng GPU, một cửa ngõ thiết yếu để trở thành kỹ sư AI nòng cốt.




😄 Rất đề xuất cho những người sau đây

Người mới bắt đầu học AI

Những ai muốn tìm hiểu về cấu trúc Transformer và Attention
nhưng cảm thấy khó khăn vì các khái niệm và công thức toán học phức tạp

Người mới bắt đầu học AI

Đã từng sử dụng ChatGPT hoặc các dịch vụ AI tạo sinh, nhưng
muốn tìm hiểu nguyên lý hoạt động thực tế của LLM.

Kỹ sư AI

Kỹ sư AI cần hiểu về kiến trúc LLM và môi trường GPU,
cũng như cần có năng lực xây dựng và vận hành hệ thống AI thực tế

💡 Nội dung học trong bài giảng

Bước 1. Nền tảng

  • Hiểu về mô hình Transformer

  • Tokenizer & Embedding

  • Encoder so với Decoder

  • Xem mã nguồn mô hình

Bước 2. Attention

  • Chinh phục mô hình Decoder

  • Làm chủ Attention

  • Masked Attention

  • KV Cache

Bước 3. Serving

  • vLLM Serving

  • Paged Attention

  • Tương thích với OpenAI

  • Giao thức SSE

Bước 4. Tool Call

  • Hiểu về Tool Call

  • Kiến trúc phản hồi Tool

  • Mẫu trò chuyện (Chat Template)

  • Bộ phân tích cú pháp Tool call

Bước 5. Tối ưu hóa (Optimization)

  • Kiểm tra hiệu năng

  • Giám sát vLLM

  • Đa GPU & Parallelism

  • Các tính năng bổ sung của vLLM

Bước 6. Nâng cao

  • Dự đoán đa mã thông báo (Multi Token Prediction)

  • mHC

  • Engram

  • Những nỗ lực để vượt qua giới hạn

💡 Điểm cốt lõi của bài giảng

Điểm 1

Nguyên lý cốt lõi của Attention học không cần công thức


Học một cách trực quan các kỹ thuật Attention đa dạng thông qua Excel mà không cần công thức (MHA → MQA → GQA, Sliding Window Attention)

Điểm 2

Triển khai kiến trúc AI theo cấu trúc 3 tầng (3-Tier)


Hiểu cấu trúc cơ bản của kiến trúc 3 lớp (3-Tier) kết nối từ OpenWebUI, FastAPI đến vLLM và học luồng cơ bản của việc tích hợp Tool.

Điểm 3

Đo lường số lượng người dùng đồng thời và mẹo vận hành vLLM

Sử dụng jMeter để thực hiện kiểm tra tải (load test) từ FastAPI → vLLM nhằm xác nhận các chỉ số như TTFT, TPOT tùy theo số lượng người dùng đồng thời.

Point 4

Giám sát dịch vụ vLLM

Xây dựng đường ống (pipeline) bảng điều khiển Prometheus & Grafana để nắm vững các nguyên lý cơ bản về vận hành dịch vụ vLLM.

Điểm 5

Kiểm tra Đơn GPU / Đa GPU

Thông qua việc thực hành về 3 loại đa GPU cơ bản (Pipeline Parallel, Tensor Parallel, Data Parallel), bạn sẽ trực tiếp tận mắt xác nhận lý do tại sao cần phải có đa GPU.

Điểm 6

Chinh phục xu hướng phát triển LLM

Giới thiệu các kỹ thuật mới nhất của DeepSeek như MTP, Shared MoE, MLA, Engram và các xu hướng phát triển LLM đang được thực hiện để tối ưu hóa hiệu quả suy luận.

✅ Các công cụ được sử dụng trong bài giảng




✅ Hướng dẫn môi trường thực hành server

Việc xây dựng hệ thống vLLM sẽ được thực hiện bằng cách sử dụng Runpod. Ngoài ra, các bài thực hành sử dụng GPU T4 của Google Colab cũng sẽ được tiến hành song song. Vì GPU T4 cung cấp 15GB bộ nhớ GPU, nên những bài thực hành nào có thể thực hiện trên Colab sẽ được tiến hành tại đó.

Runpod

Chúng tôi sẽ thiết lập môi trường thực hành dựa trên luồng OpenWebUI → FastAPI → Runpod. Chúng tôi sẽ cài đặt vLLM trên máy chủ GPU của đám mây Runpod để tiến hành nhiều bài thực hành khác nhau.

Chi phí thực hành sẽ tốn khoảng $10 ~ $20 để phục vụ cho việc học tập.


Google Colab

Google Colab, vốn được coi là môi trường thực hành tiêu chuẩn cho trí tuệ nhân tạo (AI), sẽ được sử dụng cho các bài thực hành đơn giản không yêu cầu môi trường Runpod. Chúng ta sẽ tiến hành trên gói miễn phí thông thường thay vì gói Pro và sử dụng GPU T4.

✅ Hướng dẫn môi trường thực hành tại địa phương

Dịch vụ vLLM được chạy trên Runpod nhưng
OpenwebUI và FastAPI cũng sẽ được vận hành trên máy tính cá nhân mà bạn dùng để học.
Vì vậy, vui lòng kiểm tra xem môi trường học tập dưới đây có được đáp ứng hay không!



RunpodColab được sử dụng làm môi trường thực hành chính, nhưng
Bạn sẽ thực hiện thực hành bằng cách chạy OpenWebUI và FastAPI trong môi trường local.

⚠️ Bài giảng này sẽ được cập nhật song song khi vLLM có bản cập nhật mới.

Tốc độ cập nhật của vLLM rất nhanh. Tuy nhiên, phiên bản Major hiện tại vẫn đang dừng lại ở mức 0.x.
Mặc dù vậy, nhiều doanh nghiệp vẫn đang sử dụng vLLM như một tiêu chuẩn thực tế cho công cụ suy luận (inference engine). 
vLLM không chỉ hỗ trợ mô hình Transformer vốn là trụ cột của LLM hiện nay, mà còn hỗ trợ cả kiến trúc Mamba đang nổi lên như một sự thay thế. Ngoài ra, vLLM cũng được cập nhật liên tục để hỗ trợ các tính năng mới khi chúng được thêm vào mô hình, chẳng hạn như Multi Token Prediction
Khóa học này cũng sẽ được cập nhật khi có các tính năng mới của vLLM hoặc các loại mô hình mới ra đời. 

Đừng bỏ lỡ các xu hướng của LLM.


Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • Người làm chuyên môn đang sử dụng ChatGPT và AI tạo sinh, nhưng muốn hiểu cách thức hoạt động thực sự của LLM.

  • Người mới bắt đầu có mục tiêu trở thành kỹ sư AI và muốn học về phục vụ LLM (LLM serving) cũng như cấu trúc hệ thống một cách bài bản.

  • Dành cho những nhà phát triển muốn thấu hiểu cấu trúc Transformer và Attention dưới góc nhìn thực tiễn mà không cần đến những công thức toán học phức tạp.

  • Kỹ sư backend và hạ tầng muốn tìm hiểu về luồng xây dựng hệ thống AI thực tế trong môi trường đa GPU và tối ưu hóa GPU.

  • PM và người lập kế hoạch muốn hiểu về cấu trúc LLM và chiến lược sử dụng GPU trong quá trình lập kế hoạch và phát triển dịch vụ AI.

Cần biết trước khi bắt đầu?

  • Hiểu biết về cú pháp cơ bản của Python (biến, hàm, câu lệnh điều kiện, v.v.)

  • Cách sử dụng cơ bản về git

Xin chào
Đây là hyunjinkim

Xác minh Inflearn

1,604

Học viên

111

Đánh giá

241

Trả lời

4.9

Xếp hạng

3

Các khóa học

Xin chào.

Tôi là một người đang làm việc trong lĩnh vực Dữ liệu & AI tại một tập đoàn lớn với 17 năm kinh nghiệm.

Sau khi đạt được bằng Kỹ sư Công nghệ Thông tin (Information Management Professional Engineer), tôi đang xây dựng nội dung nhằm chia sẻ những kiến thức đã tích lũy được cho nhiều người.

Rất vui được gặp bạn. :)

 

Liên hệ: hjkim_sun@naver.com

Thêm

Chương trình giảng dạy

Tất cả

54 bài giảng ∙ (14giờ 27phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

12 đánh giá

5.0

12 đánh giá

  • nova7tr1173님의 프로필 이미지
    nova7tr1173

    Đánh giá 9

    Đánh giá trung bình 4.8

    5

    11% đã tham gia

    Lần đầu tiên tham gia khóa học mà mình thấy giúp ích được rất nhiều.^-^

    • hyunjinkim
      Giảng viên

      Chào bạn nova7tr, Cảm ơn bạn đã để lại đánh giá cho khóa học. Mình rất vui vì khóa học có ích cho bạn. Hy vọng bạn sẽ hoàn thành tốt các phần còn lại nhé :)

  • logt님의 프로필 이미지
    logt

    Đánh giá 11

    Đánh giá trung bình 5.0

    5

    100% đã tham gia

    Tôi đã hoàn thành khóa học rồi~! Thật sự cảm ơn bạn rất nhiều vì đã cung cấp một chương trình đào tạo chất lượng!! Ngoại trừ những lưu ý tôi đã để lại trong phần QnA, tôi không gặp vấn đề gì khi thực hiện tất cả các bài thực hành trên nền tảng Windows cả~!

    • jjhgwx님의 프로필 이미지
      jjhgwx

      Đánh giá 938

      Đánh giá trung bình 4.9

      5

      7% đã tham gia

      Cảm ơn bạn vì bài giảng hay!

      • hyunjinkim
        Giảng viên

        Chào bạn Jang jaehoon, Cảm ơn bạn đã đánh giá khóa học 👍 Bạn đã học được 7% rồi. Hy vọng bạn sẽ hoàn thành tốt phần còn lại và nhận được nhiều sự trợ giúp. Cố lên nhé!

    • boyminseo1183님의 프로필 이미지
      boyminseo1183

      Đánh giá 1

      Đánh giá trung bình 5.0

      5

      31% đã tham gia

      Giúp ích rất nhiều ạ

      • kjunekjune0812님의 프로필 이미지
        kjunekjune0812

        Đánh giá 3

        Đánh giá trung bình 5.0

        Đã chỉnh sửa

        5

        43% đã tham gia

        Tôi không làm việc trong lĩnh vực liên quan đến Deep Learning mà đang làm trong mảng Computer Vision (rule-based). Vì công ty cần các kỹ thuật về LLM và Deep Learning cho Vision nên tôi đang nghiên cứu về chủ đề này. Mặc dù mới chỉ học được khoảng 40% nhưng tôi cảm thấy mình phải viết đánh giá ngay nên đã đăng bài này. Tôi đã nghe rất nhiều bài giảng về Deep Learning, kể cả những bài giảng của những người nổi tiếng và được đánh giá tốt, nhưng chưa có bài giảng nào súc tích và mạch lạc như bài giảng này. Điều tuyệt vời nhất là chất lượng tài liệu bài giảng rất xuất sắc. Tác giả đã ghi lại từng phép tính ma trận bằng Excel, điều này giúp ích rất nhiều khi ôn tập. Mã nguồn Python cũng được chú thích ở rất nhiều chỗ. Chất lượng bài giảng cũng rất tốt, những phần mà học viên có thể quên đều được nhắc lại để không bị bỏ lỡ. Trong khi hầu hết các bài giảng khác chỉ trình bày phép tính một hai lần rồi bỏ qua, thì ở bài giảng này, giảng viên cùng thực hiện phép tính cho đến cuối cùng, giúp mọi thứ trở nên rõ ràng và chuẩn xác. Phần Q&A cũng được kiểm tra thường xuyên, khi tôi đặt câu hỏi là được phản hồi ngay lập tức nên rất thích. Có vẻ bài giảng được quay trong năm nay nên có rất nhiều nội dung về các xu hướng mới nhất. Có vẻ bài giảng này vẫn chưa được nhiều người biết đến, nhưng tôi thực sự nhiệt liệt đề xuất cho những ai cần học về chủ đề liên quan.

        • hyunjinkim
          Giảng viên

          Chào bạn Wonjune lee, Cảm ơn bạn rất nhiều vì những đánh giá khóa học đầy tâm huyết! Tôi đã suy nghĩ rất nhiều để nâng cao chất lượng tài liệu bài giảng, sao cho học viên nhận được những tài liệu thực sự ý nghĩa và có thể dùng để ôn tập hiệu quả ngay cả sau này. Bên cạnh đó, tôi cũng đã trăn trở rất nhiều về việc làm thế nào để truyền tải các phép toán như Attention một cách hiệu quả nhất. Kết luận của tôi là không thể chỉ nhìn qua công thức, cũng không thể chỉ truyền tải qua những ví dụ so sánh đơn giản, và càng không thể chỉ giải thích bằng mã nguồn torch. Với suy nghĩ rằng chỉ khi tận mắt theo dõi luồng dữ liệu thì mới có thể hiểu được, tôi đã cố gắng giải thích tối đa bằng Excel, và tôi rất vui vì có vẻ như điều đó đã được truyền tải tốt đến bạn :) Hy vọng bạn sẽ hoàn thành tốt phần còn lại của khóa học và thu nhận được nhiều nội dung bổ ích. Cố lên nhé!

      Khóa học tương tự

      Khám phá các khóa học khác trong cùng lĩnh vực!