toy님의 생생한 수강평, Pixart & SANA, 구현하며 배우는 Diffusion 완전정복 III
수강평 3
평균평점 3.7
diffusion 1,2는 듣지 않았습니다. ML 필드에서 일하고 있고 diffusion도 어느정도 알지만, 혼자 공부하는 시간을 아끼려고 수강했습니다. 솔직히 가격 대비 강의 퀄리티가 많이 아쉽습니다. 전반적인 문제: 더듬거림이 많아서 집중하기 어렵습니다. 시간당 6만원인데 좀 아쉬웠습니다. 쉬운 부분은 너무 자세하게 설명하는데, 정작 어렵고 중요한 부분은 대충 넘어갑니다. 구체적으로 부족했던 부분: CLIP/T5 강의 소개에 "CLIP/T5 연동과 토큰 흐름 파악"이라고 써놨는데, 그냥 불러와서 쓴다는 얘기만 하고 끝입니다. CLIP이랑 T5가 뭐가 다르고 왜 같이 쓰는지, sequence length를 77로 맞추는 이유 같은건 설명이 없습니다. RoPE RoPE 자체 설명이 거의 없습니다. attention block에서 RoPE를 쓰는 경우랑 안 쓰는 경우가 있던데 이 차이에 대한 설명이 없고, 코드엔 있지만 caching은 언제 왜 하는건지도 안 알려주십니다. AdaLN 이미 배운 SA, CA는 또 자세히 설명하시는데, AdaLN-single 같은 중요한 개념은 "기존과 동일하고, cross attention projection에서 zero initialization 쓴다"고만 하십니다. 무슨 뜻인지 모르겠고 왜 그런지도 설명이 없습니다. 따로 찾아보니까 zero initialization은 AdaLN-Zero를 말하는거고, AdaLN-Single이랑은 다른 개념 같은데... 강의에서는 이런 구분이나 설명이 전혀 없었습니다. Linear Attention (SANA) 사전 설명은 괜찮은데, 코드 설명할 때 vanilla attention이랑 뭐가 다른지를 얘기안해주시고 똑같은 부분(qkv)만 집고 넘어가십니다. 오류: SANA scheduler 설명할 때 "t에 0.5"라고 해야 하는데 "x에 0.5"라고 하신것 같습니다. 작은 실수지만 시간당 6만원짜리 강의가 검수도 안 된건 좀 아쉽습니다. 결론: 키워드 몇 개 얻어서 논문이랑 코드 보면서 공부하면 되긴 하는데, 6만원씩 내야 하나 싶습니다. 유튜브 무료 강의보다 만족도가 낮아서 많이 아쉽습니다... 심지어 수강평의 답글도 LLM 쓰셔서 자동화하신게 티나요...
0
안녕하세요. 먼저 기대하고 수강하셨을 텐데 만족을 드리지 못해 죄송합니다. 남겨주신 피드백은 감사한 마음으로 잘 읽었습니다. 말씀해주신 CLIP, T5 관련 설명 부족 부분은 본 강의 구조상 오해가 생기셨을 수 있을 것 같습니다. 이번 강의는 PixArt와 SANA라는 최신 아키텍처를 직접 구현하고 학습하는 실전 단계를 목표로 하다 보니, 텍스트 인코더 자체의 이론보다는 이 모델들이 텍스트 정보를 어떻게 받아들이고, 어떤 흐름(Flow)로 이미지 생성 과정에 연결되는지 — 즉 연동과 토큰 흐름 위주로 다루고자 했습니다. 또한, 남겨주신 내용으로 보아 1·2편을 건너뛰고 들으시면서 기본 개념이 생략된 부분에서 더 답답함을 느끼셨을 것 같아 아쉽습니다. 이 강의는 전편을 기반으로 설계되어 있어, 중요하다고 보시는 설명이 상대적으로 짧게 느껴지셨을 수도 있습니다. 말씀해 주신 부분은 추후 보강 시 꼭 참고하겠습니다. 전달력 부분에 대한 지적도 감사히 받아들이며, 이후 강의에서는 더 명확하고 안정적인 설명으로 개선해 나가겠습니다. 귀한 시간 내어 의견 주셔서 다시 한번 감사드립니다.
0





