강의

멘토링

커뮤니티

수정됨

수강평 1

평균평점 1.0

80% 수강 후 작성

diffusion 1,2는 듣지 않았습니다. ML 필드에서 일하고 있고 diffusion도 어느정도 알지만, 혼자 공부하는 시간을 아끼려고 수강했습니다. 솔직히 가격 대비 강의 퀄리티가 많이 아쉽습니다. 전반적인 문제: 더듬거림이 많아서 집중하기 어렵습니다. 시간당 6만원인데 좀 아쉬웠습니다. 쉬운 부분은 너무 자세하게 설명하는데, 정작 어렵고 중요한 부분은 대충 넘어갑니다. 구체적으로 부족했던 부분: CLIP/T5 강의 소개에 "CLIP/T5 연동과 토큰 흐름 파악"이라고 써놨는데, 그냥 불러와서 쓴다는 얘기만 하고 끝입니다. CLIP이랑 T5가 뭐가 다르고 왜 같이 쓰는지, sequence length를 77로 맞추는 이유 같은건 설명이 없습니다. RoPE RoPE 자체 설명이 거의 없습니다. attention block에서 RoPE를 쓰는 경우랑 안 쓰는 경우가 있던데 이 차이에 대한 설명이 없고, 코드엔 있지만 caching은 언제 왜 하는건지도 안 알려주십니다. AdaLN 이미 배운 SA, CA는 또 자세히 설명하시는데, AdaLN-single 같은 중요한 개념은 "기존과 동일하고, cross attention projection에서 zero initialization 쓴다"고만 하십니다. 무슨 뜻인지 모르겠고 왜 그런지도 설명이 없습니다. 따로 찾아보니까 zero initialization은 AdaLN-Zero를 말하는거고, AdaLN-Single이랑은 다른 개념 같은데... 강의에서는 이런 구분이나 설명이 전혀 없었습니다. Linear Attention (SANA) 사전 설명은 괜찮은데, 코드 설명할 때 vanilla attention이랑 뭐가 다른지를 얘기안해주시고 똑같은 부분(qkv)만 집고 넘어가십니다. 오류: SANA scheduler 설명할 때 "t에 0.5"라고 해야 하는데 "x에 0.5"라고 하신것 같습니다. 작은 실수지만 시간당 6만원짜리 강의가 검수도 안 된건 좀 아쉽습니다. 결론: 키워드 몇 개 얻어서 논문이랑 코드 보면서 공부하면 되긴 하는데, 6만원씩 내야 하나 싶습니다. 유튜브 무료 강의보다 만족도가 낮아서 많이 아쉽습니다... 심지어 수강평의 답글도 LLM 쓰셔서 자동화하신게 티나요...

Sotaaz님의 프로필 이미지
Sotaaz
지식공유자

안녕하세요. 먼저 기대하고 수강하셨을 텐데 만족을 드리지 못해 죄송합니다. 남겨주신 피드백은 감사한 마음으로 잘 읽었습니다. 말씀해주신 CLIP, T5 관련 설명 부족 부분은 본 강의 구조상 오해가 생기셨을 수 있을 것 같습니다. 이번 강의는 PixArt와 SANA라는 최신 아키텍처를 직접 구현하고 학습하는 실전 단계를 목표로 하다 보니, 텍스트 인코더 자체의 이론보다는 이 모델들이 텍스트 정보를 어떻게 받아들이고, 어떤 흐름(Flow)로 이미지 생성 과정에 연결되는지 — 즉 연동과 토큰 흐름 위주로 다루고자 했습니다. 또한, 남겨주신 내용으로 보아 1·2편을 건너뛰고 들으시면서 기본 개념이 생략된 부분에서 더 답답함을 느끼셨을 것 같아 아쉽습니다. 이 강의는 전편을 기반으로 설계되어 있어, 중요하다고 보시는 설명이 상대적으로 짧게 느껴지셨을 수도 있습니다. 말씀해 주신 부분은 추후 보강 시 꼭 참고하겠습니다. 전달력 부분에 대한 지적도 감사히 받아들이며, 이후 강의에서는 더 명확하고 안정적인 설명으로 개선해 나가겠습니다. 귀한 시간 내어 의견 주셔서 다시 한번 감사드립니다.

Pixart & SANA, 구현하며 배우는 Diffusion 완전정복 III 썸네일
Sotaaz

·

5강

·

8명 수강

Pixart & SANA, 구현하며 배우는 Diffusion 완전정복 III 썸네일
Sotaaz

·

5강

·

8명 수강