강의

멘토링

커뮤니티

AI Technology

/

Deep Learning & Machine Learning

Pixart & SANA, triển khai và học Diffusion hoàn toàn thành thạo III

Triển khai từng bước từ lý thuyết đến code cho PixArt dựa trên Transformer mới nhất và SANA thích ứng nhẹ. Dựa trên DDPM·DDIM·LDM·DiT đã đề cập trong phần I·II, hoàn thành theo hướng thực hành từ kết nối text encoder, sampler (DDIM/ODE), điều chỉnh v-prediction/CFG, đến fine-tuning phong cách dữ liệu quy mô nhỏ.

(3.0) 2 đánh giá

9 học viên

Độ khó Trung cấp trở lên

Thời gian Không giới hạn

  • Sotaaz
Python
Python
PyTorch
PyTorch
AI
AI
Python
Python
PyTorch
PyTorch
AI
AI

Bạn sẽ nhận được điều này sau khi học.

  • Hiểu cấu trúc PixArt dựa trên Transformer và triển khai PyTorch

  • Hiểu về kiến trúc SANA dựa trên Transformer và triển khai PyTorch

  • Tích hợp bộ mã hóa văn bản (CLIP/T5) và nắm bắt luồng token

Hoàn thành hành trình cuối cùng của Diffusion với PixArt & SANA ✨

Hiện tại và tương lai của Transformer dựa trên text-to-image, từ lý thuyết đến triển khai code · tuning · đánh giá · deploy tất cả trong một.
Dựa trên nền tảng DDPM·DDIM·LDM·DiT từ phần trước (I·II), trực tiếp tạo và huấn luyện mô hình T2I với backbone PixArtSANA.

Khóa học này có gì khác biệt?

  • 🚀 Triển khai thực tế: v-prediction, điều chỉnh CFG, DDIM/ODE sampler để tạo ra "mẫu nhanh và đẹp"

  • 🧠 Phân tích nguyên lý thiết kế: Hiểu bối cảnh Transformer block, Cross-Attention, Positional Encoding của PixArt

  • 🪶 SANA thích ứng nhẹ: Đóng băng base, chỉ học adapter → Thích ứng phong cách chất lượng cao với ít dữ liệu

  • 🧪 Thí nghiệm có thể tái hiện: Cố định seed·Quản lý Config

  • 🌐 Học tập và lấy mẫu: Kết nối đến portfolio/prototype

Tôi khuyên dành cho những người như thế này

  • 🔧 Dành cho những ai đã hoàn thành phần I·II và muốn làm quen với Transformer T2I mới nhất

  • 🎨 Nhà thiết kế/Người sáng tạo: Những ai muốn tìm hiểu nguyên lý tạo ra hình ảnh

  • 🏃 Startup/Maker: Những người muốn nhanh chóng tích hợp mô hình hình ảnh tùy chỉnh vào dịch vụ với tài nguyên nhẹ

Hộp công cụ của bạn sau khi học

  • 🧩 Template PixArt PyTorch & snippet sampler (DDIM/ODE)

  • 🧷 Script điều chỉnh bộ chuyển đổi SANA(bao gồm hướng dẫn dữ liệu quy mô nhỏ)


Năng lực cần thiết: Kiến thức cơ bản về PyTorch, hiểu biết cơ bản về Transformer·Diffusion (phần trước hoặc trình độ tương đương).
Môi trường khuyến nghị: GPU 12GB+ Tất cả các bài thực hành đều có thể thực hiện an toàn với checklist và mã tham khảo.

Khuyến nghị cho
những người này

Khóa học này dành cho ai?

  • ML/Nhà khoa học dữ liệu·Nhà nghiên cứu: Những ai muốn tái tạo T2I dựa trên Transformer (PixArt) và SANA bằng code

  • Những người muốn nhanh chóng áp dụng và triển khai mô hình hình ảnh tùy chỉnh phù hợp với dịch vụ của mình bằng dữ liệu quy mô nhỏ

  • Đội ngũ muốn xây dựng pipeline từ prototype AI tạo sinh → demo → MVP

  • Người học muốn củng cố kiến thức cơ bản về PyTorch·Transformer thông qua dự án T2I thực tế

Cần biết trước khi bắt đầu?

  • PyTorch cơ bản: Tensor/Module/Optimizer, Dataset·DataLoader, autograd

  • Xác suất·Thống kê(Gaussian, KL), Vi phân·Chain rule, Đại số tuyến tính(Nhân ma trận·Chuẩn hóa)

  • Khái niệm Transformer: Self/Cross-Attention, Positional Encoding, LayerNorm

  • Diffusion cơ bản: Nội dung phần I·II về DDPM/DDIM·v-prediction·CFG và các phương pháp khác

Xin chào
Đây là

62

Học viên

7

Đánh giá

1

Trả lời

4.1

Xếp hạng

5

Các khóa học

Chương trình giảng dạy

Tất cả

5 bài giảng ∙ (1giờ 8phút)

Tài liệu khóa học:

Tài liệu bài giảng
Ngày đăng: 
Cập nhật lần cuối: 

Đánh giá

Tất cả

2 đánh giá

3.0

2 đánh giá

  • paulmoon008308님의 프로필 이미지
    paulmoon008308

    Đánh giá 111

    Đánh giá trung bình 4.9

    5

    60% đã tham gia

    • sotaaz
      Giảng viên

      Tôi chân thành ủng hộ việc triển khai các mô hình mới nhất như PixArt hay SANA sẽ mang lại sự giúp đỡ thực tế cho việc học tập của bạn. Cảm ơn bạn đã dành thời gian quý báu để tham gia khóa học dù bận rộn. Nếu có phần nào khó khăn trong quá trình học, hãy thoải mái chia sẻ nhé.

  • ooo1709님의 프로필 이미지
    ooo1709

    Đánh giá 1

    Đánh giá trung bình 1.0

    Đã chỉnh sửa

    1

    80% đã tham gia

    Tôi không nghe diffusion 1,2. Tôi đang làm việc trong lĩnh vực ML và cũng biết phần nào về diffusion, nhưng tôi đã đăng ký khóa học này để tiết kiệm thời gian tự học. Thành thật mà nói, chất lượng khóa học so với giá tiền khá đáng thất vọng. Vấn đề chung: Giảng viên nói lắp nhiều nên khó tập trung. Với mức giá 60,000 won/giờ thì khá đáng tiếc. Phần dễ thì giải thích quá chi tiết, nhưng phần khó và quan trọng lại qua loa. Các phần thiếu sót cụ thể: CLIP/T5 Trong giới thiệu khóa học có ghi "Nắm bắt luồng token và tích hợp CLIP/T5", nhưng chỉ nói là gọi ra và dùng rồi xong. Không có giải thích về sự khác biệt giữa CLIP và T5, tại sao dùng cả hai, hay lý do đặt sequence length là 77. RoPE Hầu như không có giải thích về bản thân RoPE. Có trường hợp dùng RoPE trong attention block và không dùng, nhưng không giải thích sự khác biệt này, và cũng không cho biết khi nào và tại sao cần caching mặc dù có trong code. AdaLN SA, CA đã học lại giải thích chi tiết, nhưng khái niệm quan trọng như AdaLN-single chỉ nói "giống như trước, dùng zero initialization ở cross attention projection". Tôi không hiểu ý nghĩa và cũng không có giải thích tại sao. Khi tự tìm hiểu, tôi thấy zero initialization là nói về AdaLN-Zero, và có vẻ khác với AdaLN-Single... nhưng trong khóa học hoàn toàn không có sự phân biệt hay giải thích này. Linear Attention (SANA) Phần giải thích trước ổn, nhưng khi giải thích code thì không nói khác gì so với vanilla attention, chỉ đề cập phần giống nhau (qkv) rồi qua. Lỗi: Khi giải thích SANA scheduler, có vẻ nói "x nhân 0.5" thay vì "t nhân 0.5". Tuy là lỗi nhỏ nhưng với khóa học 60,000 won/giờ mà không được kiểm duyệt thì khá đáng tiếc. Kết luận: Tuy có thể lấy được vài từ khóa rồi tự học qua paper và code, nhưng không biết có đáng phải trả 60,000 won không. Mức độ hài lòng còn thấp hơn cả các khóa học miễn phí trên YouTube nên rất tiếc... Thậm chí trong phần trả lời đánh giá khóa học cũng thấy rõ là dùng LLM để tự động hóa...

    • sotaaz
      Giảng viên

      Xin chào. Trước tiên, tôi xin lỗi vì không đáp ứng được sự hài lòng của bạn khi bạn đã kỳ vọng và đăng ký khóa học. Tôi đã đọc phản hồi của bạn với lòng biết ơn. Về phần thiếu giải thích liên quan đến CLIP và T5 mà bạn đã đề cập, có vẻ như có thể có sự hiểu lầm do cấu trúc của khóa học này. Khóa học này nhằm mục tiêu vào giai đoạn thực hành trực tiếp triển khai và học các kiến trúc mới nhất là PixArt và SANA, nên thay vì tập trung vào lý thuyết của chính text encoder, tôi muốn tập trung vào cách các mô hình này tiếp nhận thông tin văn bản và luồng (Flow) nào kết nối với quá trình tạo hình ảnh — tức là tập trung vào sự kết nối và luồng token. Ngoài ra, dựa trên nội dung bạn để lại, có vẻ như bạn đã bỏ qua phần 1 và 2 nên cảm thấy bức bối hơn ở những phần thiếu các khái niệm cơ bản, điều này thật đáng tiếc. Khóa học này được thiết kế dựa trên các phần trước, nên những giải thích mà bạn cho là quan trọng có thể cảm thấy tương đối ngắn. Tôi sẽ nhất định tham khảo phần bạn đã đề cập khi bổ sung sau này. Tôi cũng biết ơn nhận xét về khả năng truyền đạt, và sẽ cải thiện bằng những giải thích rõ ràng và ổn định hơn trong các khóa học sau. Một lần nữa cảm ơn bạn đã dành thời gian quý báu để đóng góp ý kiến.

1.851.571 ₫

Khóa học khác của Sotaaz

Hãy khám phá các khóa học khác của giảng viên!

Khóa học tương tự

Khám phá các khóa học khác trong cùng lĩnh vực!