- 스터디 주제 : Vision-Language Model 핵심 논문 분석 및 최신 연구 동향 파악
- 스터디 목표 :
BLIP-2부터 Video-R1까지 VLM 발전 과정 체계적 학습
최신 VLM 논문을 독립적으로 분석할 수 있는 역량 확보
Video Understanding과 강화학습 기반 VLM 연구 트렌드 이해
- 예상 스터디 일정(횟수) : 총 9주 (매주 진행, 논문 9편) 7/5 시작
매주 토요일 13:00-15:00 (2시간)
장소: 상도/숭실대역 인근 스터디룸
- 예상 커리큘럼 간략히 (추후 변경 여지 있음):
1주: BLIP-2 2주: LLaVA 3주: Qwen-VL 4주: LLaVA-NeXT 5주: CogVLM 6주: VideoLLaMA2 7주: LLaVA-NeXT-Video 8주: VLM-R1 9주: Video-R1
예상 모집인원 : 총 5명 (스터디장 포함)
스터디 소개와 개설 이유 : ChatGPT, Claude 등으로 시작된 AI 붐이 이제 멀티모달로 확장되고 있습니다. 특히 Vision-Language Model은 텍스트뿐만 아니라 이미지와 비디오까지 이해할 수 있어 차세대 AI의 핵심 기술로 주목받고 있어요.
하지만 VLM 분야는 발전 속도가 너무 빨라서 독학으로는 따라가기 어려운 게 현실입니다. 이 스터디는 VLM의 핵심 논문들을 체계적으로 분석하면서, 단순한 이론 학습을 넘어 실제 연구 동향과 한계점까지 파악할 수 있도록 설계했습니다.
이전 스터디 운영 경험: Open Deep Research 스터디를 성공적으로 진행한 경험이 있어, 안정적인 스터디 운영을 보장합니다.
스터디 관련 주의사항 :
매주 논문 1편씩 사전 읽기 필수 (영어 논문)
적극적인 토론 참여와 질문 환영
보증금 3만원 (스터디 완주 시 전액 반환 또는 회식비 사용)
무단 결석 2회 이상 시 보증금 차감
스터디에 지원할 수 있는 방법을 남겨주세요 :
[카카오톡 오픈채팅방]: https://open.kakao.com/o/semiXHCh
제출 정보:
- 간단한 자기소개
- VLM 관련 관심사 또는 목표
- 스터디 참여 동기
- 토요일 13:00-15:00 고정 참석 가능 여부