강의

멘토링

커뮤니티

AI 기술

/

딥러닝 · 머신러닝

Pixart & SANA, 구현하며 배우는 Diffusion 완전정복 III

최신 Transformer 기반 PixArt와 경량 적응화 SANA를 이론부터 코드까지 단계별로 구현합니다. I·II편에서 다룬 DDPM·DDIM·LDM·DiT를 바탕으로, 텍스트 인코더 연결, 샘플러(DDIM/ODE), v-예측/CFG 튜닝, 소규모 데이터 스타일 미세튜닝까지 실습 위주로 완주합니다.

(3.0) 수강평 2개

수강생 9명

난이도 중급이상

수강기한 무제한

  • Sotaaz
실습 중심
실습 중심
AI
AI
딥러닝
딥러닝
Stable Diffusion
Stable Diffusion
실습 중심
실습 중심
AI
AI
딥러닝
딥러닝
Stable Diffusion
Stable Diffusion

수강 후 이런걸 얻을 수 있어요

  • Transformer 기반 PixArt 구조 이해 및 PyTorch 구현

  • Transformer 기반 SANA 구조 이해 및 PyTorch 구현

  • 텍스트 인코더(CLIP/T5) 연동과 토큰 흐름 파악

PixArt & SANA로 완성하는 Diffusion 여정의 마지막 ✨

Transformer 기반 텍스트-to-이미지의 현재와 미래를, 이론부터 코드 구현 · 튜닝 · 평가 · 배포까지 한 번에.
전편(I·II)의 DDPM·DDIM·LDM·DiT를 발판 삼아, PixArt 백본SANAT2I 모델을 직접 만들고 학습합니다.

이 강의, 뭐가 다를까요?

  • 🚀 실전 중심 구현: v-예측, CFG 튜닝, DDIM/ODE 샘플러로 “빠르고 예쁜 샘플” 뽑기

  • 🧠 설계 원리 해부: PixArt의 Transformer 블록, Cross-Attention, Positional Encoding 맥락 이해

  • 🪶 경량 적응 SANA: 베이스는 동결, 어댑터만 학습 → 소데이터로 고품질 스타일 적응

  • 🧪 재현 가능한 실험: 시드 고정·Config 관리

  • 🌐 학습 및 샘플링: 포트폴리오/프로토타입까지 연결

이런 분께 추천해요

  • 🔧 I·II편을 끝내고 최신 Transformer T2I까지 손에 익히고 싶은 분

  • 🎨 디자이너/크리에이터: 이미지 생성의 원리를 배워보고 싶으신 분

  • 🏃 스타트업/메이커: 가벼운 자원으로 커스텀 이미지 모델을 서비스에 빠르게 붙이고 싶은 분

수강 후 당신의 툴박스

  • 🧩 PixArt PyTorch 템플릿 & 샘플러(DDIM/ODE) 스니펫

  • 🧷 SANA 어댑터 튜닝 스크립트(소규모 데이터 가이드 포함)


필요 역량: PyTorch 기초, Transformer·Diffusion 기본 이해(전편 또는 동등 수준).
권장 환경: GPU 12GB+ 모든 실습은 체크리스트와 레퍼런스 코드로 안전하게 실행하실 수 있습니다.

이런 분들께
추천드려요

학습 대상은
누구일까요?

  • ML/데이터 사이언티스트·연구원: Transformer 기반 T2I(PixArt)와 SANA를 코드로 재현해 보고 싶은 분

  • 소규모 데이터로 내 서비스에 맞는 커스텀 이미지 모델을 빠르게 적용·배포하고 싶은 분

  • 생성형 AI 프로토타입→데모→MVP 파이프라인을 구축하려는 팀

  • PyTorch·Transformer 기초를 실전 T2I 프로젝트로 다지고 싶은 학습자

선수 지식,
필요할까요?

  • PyTorch 기초: Tensor/Module/Optimizer, Dataset·DataLoader, autograd

  • 확률·통계(가우시안, KL), 미분·체인룰, 선형대수(행렬곱·정규화)

  • Transformer 개념: Self/Cross-Attention, Positional Encoding, LayerNorm

  • Diffusion 기본: DDPM/DDIM·v-예측·CFG 등 I·II편 내용

안녕하세요
입니다.

62

수강생

7

수강평

1

답변

4.1

강의 평점

5

강의

커리큘럼

전체

5개 ∙ (1시간 8분)

해당 강의에서 제공:

수업자료
강의 게시일: 
마지막 업데이트일: 

수강평

전체

2개

3.0

2개의 수강평

  • 스프링님의 프로필 이미지
    스프링

    수강평 111

    평균 평점 4.9

    5

    60% 수강 후 작성

    • Sotaaz
      지식공유자

      PixArt나 SANA 같은 최신 모델 구현이 학습에 실질적인 도움이 되기를 진심으로 응원하겠습니다. 바쁘신 와중에도 귀한 시간 내어 수강해주셔서 감사합니다. 학습하시다 어려운 부분은 편하게 말씀해 주세요.

  • toy님의 프로필 이미지
    toy

    수강평 1

    평균 평점 1.0

    수정됨

    1

    80% 수강 후 작성

    diffusion 1,2는 듣지 않았습니다. ML 필드에서 일하고 있고 diffusion도 어느정도 알지만, 혼자 공부하는 시간을 아끼려고 수강했습니다. 솔직히 가격 대비 강의 퀄리티가 많이 아쉽습니다. 전반적인 문제: 더듬거림이 많아서 집중하기 어렵습니다. 시간당 6만원인데 좀 아쉬웠습니다. 쉬운 부분은 너무 자세하게 설명하는데, 정작 어렵고 중요한 부분은 대충 넘어갑니다. 구체적으로 부족했던 부분: CLIP/T5 강의 소개에 "CLIP/T5 연동과 토큰 흐름 파악"이라고 써놨는데, 그냥 불러와서 쓴다는 얘기만 하고 끝입니다. CLIP이랑 T5가 뭐가 다르고 왜 같이 쓰는지, sequence length를 77로 맞추는 이유 같은건 설명이 없습니다. RoPE RoPE 자체 설명이 거의 없습니다. attention block에서 RoPE를 쓰는 경우랑 안 쓰는 경우가 있던데 이 차이에 대한 설명이 없고, 코드엔 있지만 caching은 언제 왜 하는건지도 안 알려주십니다. AdaLN 이미 배운 SA, CA는 또 자세히 설명하시는데, AdaLN-single 같은 중요한 개념은 "기존과 동일하고, cross attention projection에서 zero initialization 쓴다"고만 하십니다. 무슨 뜻인지 모르겠고 왜 그런지도 설명이 없습니다. 따로 찾아보니까 zero initialization은 AdaLN-Zero를 말하는거고, AdaLN-Single이랑은 다른 개념 같은데... 강의에서는 이런 구분이나 설명이 전혀 없었습니다. Linear Attention (SANA) 사전 설명은 괜찮은데, 코드 설명할 때 vanilla attention이랑 뭐가 다른지를 얘기안해주시고 똑같은 부분(qkv)만 집고 넘어가십니다. 오류: SANA scheduler 설명할 때 "t에 0.5"라고 해야 하는데 "x에 0.5"라고 하신것 같습니다. 작은 실수지만 시간당 6만원짜리 강의가 검수도 안 된건 좀 아쉽습니다. 결론: 키워드 몇 개 얻어서 논문이랑 코드 보면서 공부하면 되긴 하는데, 6만원씩 내야 하나 싶습니다. 유튜브 무료 강의보다 만족도가 낮아서 많이 아쉽습니다... 심지어 수강평의 답글도 LLM 쓰셔서 자동화하신게 티나요...

    • Sotaaz
      지식공유자

      안녕하세요. 먼저 기대하고 수강하셨을 텐데 만족을 드리지 못해 죄송합니다. 남겨주신 피드백은 감사한 마음으로 잘 읽었습니다. 말씀해주신 CLIP, T5 관련 설명 부족 부분은 본 강의 구조상 오해가 생기셨을 수 있을 것 같습니다. 이번 강의는 PixArt와 SANA라는 최신 아키텍처를 직접 구현하고 학습하는 실전 단계를 목표로 하다 보니, 텍스트 인코더 자체의 이론보다는 이 모델들이 텍스트 정보를 어떻게 받아들이고, 어떤 흐름(Flow)로 이미지 생성 과정에 연결되는지 — 즉 연동과 토큰 흐름 위주로 다루고자 했습니다. 또한, 남겨주신 내용으로 보아 1·2편을 건너뛰고 들으시면서 기본 개념이 생략된 부분에서 더 답답함을 느끼셨을 것 같아 아쉽습니다. 이 강의는 전편을 기반으로 설계되어 있어, 중요하다고 보시는 설명이 상대적으로 짧게 느껴지셨을 수도 있습니다. 말씀해 주신 부분은 추후 보강 시 꼭 참고하겠습니다. 전달력 부분에 대한 지적도 감사히 받아들이며, 이후 강의에서는 더 명확하고 안정적인 설명으로 개선해 나가겠습니다. 귀한 시간 내어 의견 주셔서 다시 한번 감사드립니다.

월 ₩17,820

5개월 할부 시

₩89,100

Sotaaz님의 다른 강의

지식공유자님의 다른 강의를 만나보세요!

비슷한 강의

같은 분야의 다른 강의를 만나보세요!