diffusion 1,2は受講していません。ML分野で働いており、diffusionもある程度知っていますが、独学の時間を節約するために受講しました。
正直、価格に対して講義のクオリティがかなり残念です。
全般的な問題:
言葉に詰まることが多く、集中しにくいです。時給6万ウォンなのに少し残念でした。
簡単な部分は非常に詳しく説明するのに、肝心の難しくて重要な部分は適当に流します。
具体的に不足していた部分:
CLIP/T5
講義紹介に「CLIP/T5連携とトークンフロー把握」と書いてあったのに、ただ読み込んで使うという話だけで終わりです。
CLIPとT5が何が違って、なぜ一緒に使うのか、sequence lengthを77に合わせる理由などの説明がありません。
RoPE
RoPE自体の説明がほとんどありません。
attention blockでRoPEを使う場合と使わない場合があったのですが、この違いについての説明がなく、コードにはありますがcachingはいつなぜするのかも教えてくれません。
AdaLN
すでに学んだSA、CAはまた詳しく説明されるのに、AdaLN-singleのような重要な概念は「既存と同じで、cross attention projectionでzero initializationを使う」とだけ言われます。
何を意味するのか分からないし、なぜそうなのかの説明もありません。
別途調べてみたら、zero initializationはAdaLN-Zeroのことで、AdaLN-Singleとは違う概念のようですが...講義ではこのような区別や説明が全くありませんでした。
Linear Attention (SANA)
事前説明は良かったのですが、コード説明の際にvanilla attentionと何が違うのかを話してくれず、同じ部分(qkv)だけ触れて進みます。
誤り:
SANA scheduler説明の際に「tに0.5」と言うべきところを「xに0.5」と言われたようです。小さなミスですが、時給6万ウォンの講義が校閲もされていないのは少し残念です。
結論:
キーワードをいくつか得て論文とコードを見ながら勉強すればいいのですが、6万ウォンずつ払う必要があるのかと思います。YouTubeの無料講義より満足度が低くて非常に残念です...しかも受講レビューの返信もLLMを使って自動化されているのが見え見えです...