요즘 Discrete Diffusion이 핫하죠!
8B 스케일의 Masked Diffusion Model(Llada)의 개발과 함께 Edit Flow와 같은 가변길이 생성을 지원하는 모델도 기대를 모으고 있습니다.
특히 Edit Flow기반 모델은 아직 3B이상으로 스케일한 사례도 제가 찾기로는 없어서 시도해본다면 거의 최초사례가 되지 않을까 합니다.
Mask기반이 됐든, Edit Flow기반이 됐든, 약 3B 정도 크기의 Discrete Diffusion Model을 학습시키려고 합니다.
Pretraining, SFT, 그리고 RL fine tuning을 진행하고 각종 benchmark에 성능을 측정하여 huggingface 등록까지를 목표로 하려고 합니다. SOTA 성능을 달성하는 것이 목표라기보다는 그냥 dLLM이 이렇게 돌아가는구나, 학습하는게 목표이니 참고해주세요.
함께하실 LLM에 관심있는 분들을 모집합니다!
기간)
Pretraining 1주, SFT 1주, RL fine tuning 1주 정도 총 3주에 걸쳐 진행
제 사정상 오래 못끌어서 좀 빠듯하게 진행합니다. 단기간에 시간 투자 많이 하실 수 있는 분들 환영합니다
활동 방법)
Pretraining -
각자 base transformer architecture 골라서 구현 (방법은 유튜브에 많아요, 참고자료 제공예정)
~1.1B로 pretraining후 가장 성능 좋은 architecture 선택
모여서 dataset curating 및 cleaning 하기
3B~7B 사이로 scaling 후 렌탈 gpu에서 학습하기
SFT -
코딩, 수학, Instruction 데이터셋으로 SFT진행
RL finetuning -
각자 GRPO 구현 (d1 방법론)
코드 리뷰 진행 후, 각 코드의 장점만 모아 하나의 training script 작성
렌탈 gpu에서 학습
학습 비용으로 수십만원...이 깨질 것으로 예상되나 제가 다 부담합니다.
단, pretraining전 각자 자신의 아키텍쳐를 1.1B정도로 테스트해볼 때, 각자 rental gpu을 빌리셔야 하고, 여기서 어떤 gpu를 빌리시냐에 따라 ***3-8만원 사이***가 들 수도 있습니다.
인원) 4명
지원 조건) Transformer/ LLM 에 대해 코드 레벨에서 잘 이해하고 있을 것. Pytorch 사용자. 충분히 프로젝트에 많은 시간을 투자할 수 있을 것.
카카오톡 open.kakao.com/o/sb9lDgbi 로 문의 및 지원