채널톡 아이콘

Pixart & SANA, 구현하며 배우는 Diffusion 완전정복 III

최신 Transformer 기반 PixArt와 경량 적응화 SANA를 이론부터 코드까지 단계별로 구현합니다. I·II편에서 다룬 DDPM·DDIM·LDM·DiT를 바탕으로, 텍스트 인코더 연결, 샘플러(DDIM/ODE), v-예측/CFG 튜닝, 소규모 데이터 스타일 미세튜닝까지 실습 위주로 완주합니다.

(3.0) 수강평 2개

수강생 9명

난이도 중급이상

수강기한 무제한

실습 중심
실습 중심
AI
AI
딥러닝
딥러닝
Stable Diffusion
Stable Diffusion
실습 중심
실습 중심
AI
AI
딥러닝
딥러닝
Stable Diffusion
Stable Diffusion
날개 달린 동전

강의 추천하고 성장과 수익을 만들어 보세요!

날개 달린 동전

마케팅 파트너스

강의 추천하고 성장과 수익을 만들어 보세요!

수강 후 이런걸 얻을 수 있어요

  • Transformer 기반 PixArt 구조 이해 및 PyTorch 구현

  • Transformer 기반 SANA 구조 이해 및 PyTorch 구현

  • 텍스트 인코더(CLIP/T5) 연동과 토큰 흐름 파악

PixArt & SANA로 완성하는 Diffusion 여정의 마지막 ✨

Transformer 기반 텍스트-to-이미지의 현재와 미래를, 이론부터 코드 구현 · 튜닝 · 평가 · 배포까지 한 번에.
전편(I·II)의 DDPM·DDIM·LDM·DiT를 발판 삼아, PixArt 백본SANAT2I 모델을 직접 만들고 학습합니다.

이 강의, 뭐가 다를까요?

  • 🚀 실전 중심 구현: v-예측, CFG 튜닝, DDIM/ODE 샘플러로 “빠르고 예쁜 샘플” 뽑기

  • 🧠 설계 원리 해부: PixArt의 Transformer 블록, Cross-Attention, Positional Encoding 맥락 이해

  • 🪶 경량 적응 SANA: 베이스는 동결, 어댑터만 학습 → 소데이터로 고품질 스타일 적응

  • 🧪 재현 가능한 실험: 시드 고정·Config 관리

  • 🌐 학습 및 샘플링: 포트폴리오/프로토타입까지 연결

이런 분께 추천해요

  • 🔧 I·II편을 끝내고 최신 Transformer T2I까지 손에 익히고 싶은 분

  • 🎨 디자이너/크리에이터: 이미지 생성의 원리를 배워보고 싶으신 분

  • 🏃 스타트업/메이커: 가벼운 자원으로 커스텀 이미지 모델을 서비스에 빠르게 붙이고 싶은 분

수강 후 당신의 툴박스

  • 🧩 PixArt PyTorch 템플릿 & 샘플러(DDIM/ODE) 스니펫

  • 🧷 SANA 어댑터 튜닝 스크립트(소규모 데이터 가이드 포함)


필요 역량: PyTorch 기초, Transformer·Diffusion 기본 이해(전편 또는 동등 수준).
권장 환경: GPU 12GB+ 모든 실습은 체크리스트와 레퍼런스 코드로 안전하게 실행하실 수 있습니다.

이런 분들께
추천드려요

학습 대상은
누구일까요?

  • ML/데이터 사이언티스트·연구원: Transformer 기반 T2I(PixArt)와 SANA를 코드로 재현해 보고 싶은 분

  • 소규모 데이터로 내 서비스에 맞는 커스텀 이미지 모델을 빠르게 적용·배포하고 싶은 분

  • 생성형 AI 프로토타입→데모→MVP 파이프라인을 구축하려는 팀

  • PyTorch·Transformer 기초를 실전 T2I 프로젝트로 다지고 싶은 학습자

선수 지식,
필요할까요?

  • PyTorch 기초: Tensor/Module/Optimizer, Dataset·DataLoader, autograd

  • 확률·통계(가우시안, KL), 미분·체인룰, 선형대수(행렬곱·정규화)

  • Transformer 개념: Self/Cross-Attention, Positional Encoding, LayerNorm

  • Diffusion 기본: DDPM/DDIM·v-예측·CFG 등 I·II편 내용

안녕하세요
Sotaaz입니다.

61

수강생

7

수강평

1

답변

4.1

강의 평점

5

강의

커리큘럼

전체

5개 ∙ (1시간 8분)

해당 강의에서 제공:

수업자료
강의 게시일: 
마지막 업데이트일: 

수강평

전체

2개

3.0

2개의 수강평

  • 스프링님의 프로필 이미지
    스프링

    수강평 111

    평균 평점 4.9

    5

    60% 수강 후 작성

    • Sotaaz
      지식공유자

      PixArt나 SANA 같은 최신 모델 구현이 학습에 실질적인 도움이 되기를 진심으로 응원하겠습니다. 바쁘신 와중에도 귀한 시간 내어 수강해주셔서 감사합니다. 학습하시다 어려운 부분은 편하게 말씀해 주세요.

  • toy님의 프로필 이미지
    toy

    수강평 1

    평균 평점 1.0

    수정됨

    1

    80% 수강 후 작성

    diffusion 1,2는 듣지 않았습니다. ML 필드에서 일하고 있고 diffusion도 어느정도 알지만, 혼자 공부하는 시간을 아끼려고 수강했습니다. 솔직히 가격 대비 강의 퀄리티가 많이 아쉽습니다. 전반적인 문제: 더듬거림이 많아서 집중하기 어렵습니다. 시간당 6만원인데 좀 아쉬웠습니다. 쉬운 부분은 너무 자세하게 설명하는데, 정작 어렵고 중요한 부분은 대충 넘어갑니다. 구체적으로 부족했던 부분: CLIP/T5 강의 소개에 "CLIP/T5 연동과 토큰 흐름 파악"이라고 써놨는데, 그냥 불러와서 쓴다는 얘기만 하고 끝입니다. CLIP이랑 T5가 뭐가 다르고 왜 같이 쓰는지, sequence length를 77로 맞추는 이유 같은건 설명이 없습니다. RoPE RoPE 자체 설명이 거의 없습니다. attention block에서 RoPE를 쓰는 경우랑 안 쓰는 경우가 있던데 이 차이에 대한 설명이 없고, 코드엔 있지만 caching은 언제 왜 하는건지도 안 알려주십니다. AdaLN 이미 배운 SA, CA는 또 자세히 설명하시는데, AdaLN-single 같은 중요한 개념은 "기존과 동일하고, cross attention projection에서 zero initialization 쓴다"고만 하십니다. 무슨 뜻인지 모르겠고 왜 그런지도 설명이 없습니다. 따로 찾아보니까 zero initialization은 AdaLN-Zero를 말하는거고, AdaLN-Single이랑은 다른 개념 같은데... 강의에서는 이런 구분이나 설명이 전혀 없었습니다. Linear Attention (SANA) 사전 설명은 괜찮은데, 코드 설명할 때 vanilla attention이랑 뭐가 다른지를 얘기안해주시고 똑같은 부분(qkv)만 집고 넘어가십니다. 오류: SANA scheduler 설명할 때 "t에 0.5"라고 해야 하는데 "x에 0.5"라고 하신것 같습니다. 작은 실수지만 시간당 6만원짜리 강의가 검수도 안 된건 좀 아쉽습니다. 결론: 키워드 몇 개 얻어서 논문이랑 코드 보면서 공부하면 되긴 하는데, 6만원씩 내야 하나 싶습니다. 유튜브 무료 강의보다 만족도가 낮아서 많이 아쉽습니다... 심지어 수강평의 답글도 LLM 쓰셔서 자동화하신게 티나요...

    • Sotaaz
      지식공유자

      안녕하세요. 먼저 기대하고 수강하셨을 텐데 만족을 드리지 못해 죄송합니다. 남겨주신 피드백은 감사한 마음으로 잘 읽었습니다. 말씀해주신 CLIP, T5 관련 설명 부족 부분은 본 강의 구조상 오해가 생기셨을 수 있을 것 같습니다. 이번 강의는 PixArt와 SANA라는 최신 아키텍처를 직접 구현하고 학습하는 실전 단계를 목표로 하다 보니, 텍스트 인코더 자체의 이론보다는 이 모델들이 텍스트 정보를 어떻게 받아들이고, 어떤 흐름(Flow)로 이미지 생성 과정에 연결되는지 — 즉 연동과 토큰 흐름 위주로 다루고자 했습니다. 또한, 남겨주신 내용으로 보아 1·2편을 건너뛰고 들으시면서 기본 개념이 생략된 부분에서 더 답답함을 느끼셨을 것 같아 아쉽습니다. 이 강의는 전편을 기반으로 설계되어 있어, 중요하다고 보시는 설명이 상대적으로 짧게 느껴지셨을 수도 있습니다. 말씀해 주신 부분은 추후 보강 시 꼭 참고하겠습니다. 전달력 부분에 대한 지적도 감사히 받아들이며, 이후 강의에서는 더 명확하고 안정적인 설명으로 개선해 나가겠습니다. 귀한 시간 내어 의견 주셔서 다시 한번 감사드립니다.

Sotaaz님의 다른 강의

지식공유자님의 다른 강의를 만나보세요!

비슷한 강의

같은 분야의 다른 강의를 만나보세요!

월 ₩17,820

5개월 할부 시

₩89,100