編集済み
・
レビュー 1 件
・
平均評価 1.0
diffusion 1,2は受講していません。ML分野で働いており、diffusionもある程度知っていますが、独学の時間を節約するために受講しました。 正直、価格に対して講義のクオリティがかなり残念です。 全般的な問題: 言葉に詰まることが多く、集中しにくいです。時給6万ウォンなのに少し残念でした。 簡単な部分は非常に詳しく説明するのに、肝心の難しくて重要な部分は適当に流します。 具体的に不足していた部分: CLIP/T5 講義紹介に「CLIP/T5連携とトークンフロー把握」と書いてあったのに、ただ読み込んで使うという話だけで終わりです。 CLIPとT5が何が違って、なぜ一緒に使うのか、sequence lengthを77に合わせる理由などの説明がありません。 RoPE RoPE自体の説明がほとんどありません。 attention blockでRoPEを使う場合と使わない場合があったのですが、この違いについての説明がなく、コードにはありますがcachingはいつなぜするのかも教えてくれません。 AdaLN すでに学んだSA、CAはまた詳しく説明されるのに、AdaLN-singleのような重要な概念は「既存と同じで、cross attention projectionでzero initializationを使う」とだけ言われます。 何を意味するのか分からないし、なぜそうなのかの説明もありません。 別途調べてみたら、zero initializationはAdaLN-Zeroのことで、AdaLN-Singleとは違う概念のようですが...講義ではこのような区別や説明が全くありませんでした。 Linear Attention (SANA) 事前説明は良かったのですが、コード説明の際にvanilla attentionと何が違うのかを話してくれず、同じ部分(qkv)だけ触れて進みます。 誤り: SANA scheduler説明の際に「tに0.5」と言うべきところを「xに0.5」と言われたようです。小さなミスですが、時給6万ウォンの講義が校閲もされていないのは少し残念です。 結論: キーワードをいくつか得て論文とコードを見ながら勉強すればいいのですが、6万ウォンずつ払う必要があるのかと思います。YouTubeの無料講義より満足度が低くて非常に残念です...しかも受講レビューの返信もLLMを使って自動化されているのが見え見えです...
こんにちは。まず、期待してご受講いただいたにもかかわらず、ご満足いただけず申し訳ございません。 お寄せいただいたフィードバックは感謝の気持ちで拝読いたしました。 ご指摘いただいたCLIP、T5関連の説明不足の部分は、本講座の構成上、誤解が生じた可能性があると思います。 今回の講座は、PixArtとSANAという最新アーキテクチャを直接実装し学習する実践段階を目標としているため、テキストエンコーダー自体の理論よりも、これらのモデルがテキスト情報をどのように受け取り、どのようなフロー(Flow)で画像生成プロセスに接続されるのか — つまり連携とトークンフローを中心に扱うことを意図しておりました。 また、お寄せいただいた内容から、1・2編を飛ばしてご受講されたことで、基本概念が省略された部分でより歯がゆさを感じられたのではないかと思い、残念に思います。 本講座は前編を基盤として設計されているため、重要だとお考えの説明が相対的に短く感じられた可能性もございます。 ご指摘いただいた点は、今後の補強の際に必ず参考にさせていただきます。 伝達力の部分に関するご指摘も感謝してお受けし、今後の講座ではより明確で安定した説明に改善してまいります。 貴重なお時間を割いてご意見をお寄せいただき、改めて感謝申し上げます。




