강의

멘토링

커뮤니티

Đã chỉnh sửa

Đánh giá 1

Đánh giá trung bình 1.0

Hoàn thành 80% khóa học

Tôi không nghe diffusion 1,2. Tôi đang làm việc trong lĩnh vực ML và cũng biết phần nào về diffusion, nhưng tôi đã đăng ký khóa học này để tiết kiệm thời gian tự học. Thành thật mà nói, chất lượng khóa học so với giá tiền khá đáng thất vọng. Vấn đề chung: Giảng viên nói lắp nhiều nên khó tập trung. Với mức giá 60,000 won/giờ thì khá đáng tiếc. Phần dễ thì giải thích quá chi tiết, nhưng phần khó và quan trọng lại qua loa. Các phần thiếu sót cụ thể: CLIP/T5 Trong giới thiệu khóa học có ghi "Nắm bắt luồng token và tích hợp CLIP/T5", nhưng chỉ nói là gọi ra và dùng rồi xong. Không có giải thích về sự khác biệt giữa CLIP và T5, tại sao dùng cả hai, hay lý do đặt sequence length là 77. RoPE Hầu như không có giải thích về bản thân RoPE. Có trường hợp dùng RoPE trong attention block và không dùng, nhưng không giải thích sự khác biệt này, và cũng không cho biết khi nào và tại sao cần caching mặc dù có trong code. AdaLN SA, CA đã học lại giải thích chi tiết, nhưng khái niệm quan trọng như AdaLN-single chỉ nói "giống như trước, dùng zero initialization ở cross attention projection". Tôi không hiểu ý nghĩa và cũng không có giải thích tại sao. Khi tự tìm hiểu, tôi thấy zero initialization là nói về AdaLN-Zero, và có vẻ khác với AdaLN-Single... nhưng trong khóa học hoàn toàn không có sự phân biệt hay giải thích này. Linear Attention (SANA) Phần giải thích trước ổn, nhưng khi giải thích code thì không nói khác gì so với vanilla attention, chỉ đề cập phần giống nhau (qkv) rồi qua. Lỗi: Khi giải thích SANA scheduler, có vẻ nói "x nhân 0.5" thay vì "t nhân 0.5". Tuy là lỗi nhỏ nhưng với khóa học 60,000 won/giờ mà không được kiểm duyệt thì khá đáng tiếc. Kết luận: Tuy có thể lấy được vài từ khóa rồi tự học qua paper và code, nhưng không biết có đáng phải trả 60,000 won không. Mức độ hài lòng còn thấp hơn cả các khóa học miễn phí trên YouTube nên rất tiếc... Thậm chí trong phần trả lời đánh giá khóa học cũng thấy rõ là dùng LLM để tự động hóa...

sotaaz님의 프로필 이미지
sotaaz
Người chia sẻ kiến thức

Xin chào. Trước tiên, tôi xin lỗi vì không đáp ứng được sự hài lòng của bạn khi bạn đã kỳ vọng và đăng ký khóa học. Tôi đã đọc phản hồi của bạn với lòng biết ơn. Về phần thiếu giải thích liên quan đến CLIP và T5 mà bạn đã đề cập, có vẻ như có thể có sự hiểu lầm do cấu trúc của khóa học này. Khóa học này nhằm mục tiêu vào giai đoạn thực hành trực tiếp triển khai và học các kiến trúc mới nhất là PixArt và SANA, nên thay vì tập trung vào lý thuyết của chính text encoder, tôi muốn tập trung vào cách các mô hình này tiếp nhận thông tin văn bản và luồng (Flow) nào kết nối với quá trình tạo hình ảnh — tức là tập trung vào sự kết nối và luồng token. Ngoài ra, dựa trên nội dung bạn để lại, có vẻ như bạn đã bỏ qua phần 1 và 2 nên cảm thấy bức bối hơn ở những phần thiếu các khái niệm cơ bản, điều này thật đáng tiếc. Khóa học này được thiết kế dựa trên các phần trước, nên những giải thích mà bạn cho là quan trọng có thể cảm thấy tương đối ngắn. Tôi sẽ nhất định tham khảo phần bạn đã đề cập khi bổ sung sau này. Tôi cũng biết ơn nhận xét về khả năng truyền đạt, và sẽ cải thiện bằng những giải thích rõ ràng và ổn định hơn trong các khóa học sau. Một lần nữa cảm ơn bạn đã dành thời gian quý báu để đóng góp ý kiến.

Hình thu nhỏ của Pixart & SANA, triển khai và học Diffusion hoàn toàn thành thạo III
sotaaz

·

5 bài giảng

·

9 học viên

Hình thu nhỏ của Pixart & SANA, triển khai và học Diffusion hoàn toàn thành thạo III
sotaaz

·

5 bài giảng

·

9 học viên