Tôi không nghe diffusion 1,2. Tôi đang làm việc trong lĩnh vực ML và cũng biết phần nào về diffusion, nhưng tôi đã đăng ký khóa học này để tiết kiệm thời gian tự học.
Thành thật mà nói, chất lượng khóa học so với giá tiền khá đáng thất vọng.
Vấn đề chung:
Giảng viên nói lắp nhiều nên khó tập trung. Với mức giá 60,000 won/giờ thì khá đáng tiếc.
Phần dễ thì giải thích quá chi tiết, nhưng phần khó và quan trọng lại qua loa.
Các phần thiếu sót cụ thể:
CLIP/T5
Trong giới thiệu khóa học có ghi "Nắm bắt luồng token và tích hợp CLIP/T5", nhưng chỉ nói là gọi ra và dùng rồi xong.
Không có giải thích về sự khác biệt giữa CLIP và T5, tại sao dùng cả hai, hay lý do đặt sequence length là 77.
RoPE
Hầu như không có giải thích về bản thân RoPE.
Có trường hợp dùng RoPE trong attention block và không dùng, nhưng không giải thích sự khác biệt này, và cũng không cho biết khi nào và tại sao cần caching mặc dù có trong code.
AdaLN
SA, CA đã học lại giải thích chi tiết, nhưng khái niệm quan trọng như AdaLN-single chỉ nói "giống như trước, dùng zero initialization ở cross attention projection".
Tôi không hiểu ý nghĩa và cũng không có giải thích tại sao.
Khi tự tìm hiểu, tôi thấy zero initialization là nói về AdaLN-Zero, và có vẻ khác với AdaLN-Single... nhưng trong khóa học hoàn toàn không có sự phân biệt hay giải thích này.
Linear Attention (SANA)
Phần giải thích trước ổn, nhưng khi giải thích code thì không nói khác gì so với vanilla attention, chỉ đề cập phần giống nhau (qkv) rồi qua.
Lỗi:
Khi giải thích SANA scheduler, có vẻ nói "x nhân 0.5" thay vì "t nhân 0.5". Tuy là lỗi nhỏ nhưng với khóa học 60,000 won/giờ mà không được kiểm duyệt thì khá đáng tiếc.
Kết luận:
Tuy có thể lấy được vài từ khóa rồi tự học qua paper và code, nhưng không biết có đáng phải trả 60,000 won không. Mức độ hài lòng còn thấp hơn cả các khóa học miễn phí trên YouTube nên rất tiếc... Thậm chí trong phần trả lời đánh giá khóa học cũng thấy rõ là dùng LLM để tự động hóa...