요즘 Discrete Diffusion이 핫하죠!
Lou의 SEDD(2024) 시절에는 training loss도 복잡하고, 수식도 어려워서 장벽이 좀 있었는데,
최근의 MDM(Masked Diffusion Model)은 training loss도 그냥 Cross Entropy라서 학습 자체가 그냥 LLM과 몹시 유사합니다
그말은, LLM과 조금만 친숙하다면, 요즘 핫한 Discrete Diffusion도 무리없이 이해하고 학습시켜볼 수 있다는 뜻!
GRPO같은 RL기반 fine tuning을 MDM에 적용하려는 시도도 꾸준히 있었고, d1 (Meta)같은 방법론이 개발되기도 했습니다.
트렌드를 열심히 쫓아가고자, 약 3B 정도 크기의 Discrete Diffusion Model을 학습시키려고 합니다.
Pretraining, SFT, 그리고 RL fine tuning을 진행하고 각종 benchmark에 성능을 측정하여 huggingface 등록까지를 목표로 하려고 합니다. SOTA 성능을 달성하는 것이 목표라기보다는 그냥 dLLM이 이렇게 돌아가는구나, 학습하는게 목표이니 참고해주세요.
함께하실 LLM에 관심있는 분들을 모집합니다!
기간)
Pretraining 1주, SFT 1주, RL fine tuning 1주 정도 총 3주에 걸쳐 진행
제 사정상 오래 못끌어서 좀 빠듯하게 진행합니다. 단기간에 시간 투자 많이 하실 수 있는 분들 환영합니다
활동 방법)
Pretraining -
각자 base transformer architecture 골라서 구현 (방법은 유튜브에 많아요, 참고자료 제공예정)
~1.1B로 pretraining후 가장 성능 좋은 architecture 선택
모여서 dataset curating 및 cleaning 하기
3B~7B 사이로 scaling 후 렌탈 gpu에서 학습하기
SFT -
코딩, 수학, Instruction 데이터셋으로 SFT진행
RL finetuning -
각자 GRPO 구현 (d1 방법론)
코드 리뷰 진행 후, 각 코드의 장점만 모아 하나의 training script 작성
렌탈 gpu에서 학습
학습 비용으로 수십만원...이 깨질 것으로 예상되나 제가 다 부담합니다.
단, pretraining전 각자 자신의 아키텍쳐를 1.1B정도로 테스트해볼 때, 각자 rental gpu을 빌리셔야 하고, 여기서 어떤 gpu를 빌리시냐에 따라 ***3-8만원 사이***가 들 수도 있습니다.
인원) 4명
지원 조건) Transformer/ LLM 에 대해 코드 레벨에서 잘 이해하고 있을 것. Pytorch 사용자. 충분히 프로젝트에 많은 시간을 투자할 수 있을 것.
카카오톡 open.kakao.com/o/sb9lDgbi 로 문의 및 지원