강의

멘토링

로드맵

Inflearn brand logo image
AI 개발

/

AI에이전트 개발

[VLM101] 파인튜닝으로 멀티모달 챗봇 만들기 (feat.MCP)

비전-언어 모델(Vision-Language Model, VLM)의 개념과 활용 방법을 이해하고, 실제로 LLaVA 모델을 Ollama 기반 환경에서 실행하며 MCP(Model Context Protocol)와 연동하는 과정을 실습하는 입문자용 강의입니다. 이 강의는 멀티모달 모델의 원리, 경량화(Quantization), 서비스 및 통합 데모 개발까지 다루며, 이론과 실습을 균형 있게 제공합니다.

(4.6) 수강평 9개

수강생 41명

  • 꿈꾸는범블비

먼저 경험한 수강생들의 후기

이런 걸 배울 수 있어요

  • MCP가 뭔지 이해하기

  • 직접 손으로 VLM 튜닝 및 PoC 데모 만들어보기

오뜨 띠배너 (1)

파인튜닝&챗봇구현으로 배우는
최신 멀티모달 기술, VLM

우리는 매일 ChatGPT, Gemini, Claude 같은 AI 서비스를 사용하지만, 그들이 이미지를 어떻게 '이해'하는지 궁금해한 적 있나요? 핵심 기술은 바로 Vision-Language Model(VLM) 입니다.

이 강의에서는 최신 VLM 모델인 LLaVA와 Qwen2.5v을 직접 파인튜닝하고, Olama로 로컬 실행하며 MCP(Model Context Protocol)를 활용해 나만의 멀티모달 챗봇을 만들어 봅니다. CLIP Vision Encoder, Quantization, MCP Server 구축 등 실무에 바로 적용할 수 있는 기술도 다루며, 단순한 API 호출을 넘어서 VLM의 동작 원리부터 MCP 연동까지 전체 워크플로우를 경험할 수 있습니다.

📌 멀티모달 AI의 진화 흐름을 한눈에

CLIP부터 LLaVA OneVision까지, VLM의 발전과정과 기술적 맥락을 정리합니다.

📌 직접 만드는 나만의 VLM 챗봇

파인튜닝과 경량화, Ollama 로컬 실행까지-직접 모델을 구성해봅니다

📌 이론과 실습의 완벽한 균형

RunPod 환경에서 실제로 GPU를 사용해 모델을 훈련하고 테스트합니다

📌 딥러닝 경험자라면 누구나 OK

입문자도 따라올 수 있도록 기초 개념부터 차근차근 설명합니다

강의에서 경험할 수 있는
5가지 포인트

API 호출이 아닌, 직접 만드는 멀티모달 AI 경험
모델을 단순히 사용하는 것을 넘어서, 직접 튜닝하고 연결하며 완성하는 실전 중심 구성입니다.

VLM 기술의 진화 흐름을 단계별로 체험
CLIP → LLaVA → LLaVA 1.5 → OneVision으로 이어지는 멀티모달 모델 발전 과정을 체계적으로 경험합니다.

최신 멀티모달 기술 반영
LLaVA OneVision, MCP 등 가장 최신 멀티모달 AI 흐름을 담았습니다.

10달러로 완주 가능한 GPU 실습 설계
RunPod 환경 기준, 부담 없는 비용으로도 전체 실습이 가능합니다.

강의로 완성하는 나만의 포트폴리오
강의 수료 시, 직접 만든 멀티모달 챗봇 결과물을 보유하게 됩니다.

이런 분들께 추천해요

🚀 AI 개발로 레벨업하고 싶어요.
ChatGPT API만 써봤는데, 이제 직접 AI 모델을 다뤄보고 싶은 개발자 / 학생

👁 멀티모달 AI에 관심있어요.
텍스트와 이미지를 동시에 처리하는 AI는 어떻게 작동할까? VLM의 원리가 궁금하신 분

로컬 AI 환경 구축이 궁금해요.
클라우드 API 비용이 부담되어 로컬에서 AI 모델을 실행하고 싶으신 분

💡 이런 수강생에게 필요한 강의

😤 "API만 쓰는 게 답답해요"

  • ChatGPT API로 서비스를 만들었지만, 비용도 부담되고 제약도 많아서 답답하신 분

  • 블랙박스 같은 AI 모델 내부가 궁금해서 직접 만져보고 싶으신 분

💸 "AI 서비스 운영비가 너무 비싸요"

  • OpenAI Vision API 호출 비용이 부담되어 자체 모델 구축을 고려 중인 스타트업 개발자

  • 대량의 이미지 처리가 필요한 서비스를 기획 중인 분

🚀 "멀티모달 AI 전문가가 되고 싶어요"

  • AI 개발자로 커리어를 발전시키고 싶지만 텍스트 기반 LLM만 다뤄본 분

  • 포트폴리오에 차별화된 프로젝트를 추가하고 싶은 취업 준비생

🤔 "VLM이 정확히 뭔지 모르겠어요"

  • AI 트렌드는 따라가고 싶지만 멀티모달이 뭔지, VLM이 뭔지 정확히 이해하지 못하신 분

  • 이미지와 텍스트를 동시에 처리하는 AI의 원리가 궁금하신 분

수강 후에는

  • CLIP, LLaVA 시리즈의 동작 원리를 완벽히 이해할 수 있어요. 멀티모달 AI도 더 이상 블랙박스가 아니게 돼요.

  • Ollama와 RunPod을 활용한 실전 환경에서 VLM을 파인튜닝하고 배포할 수 있어요.

  • Quantization 기법으로 거대한 모델을 경량화해서 개인 PC에서도 실행할 수 있게 돼요.

  • MCP(Model Context Protocol)를 활용해 여러 AI 도구들을 통합한 워크플로우를 구축할 수 있어요.

  • 나만의 멀티모달 챗봇을 처음부터 끝까지 직접 만들 수 있게 돼요.

💡 수강 후 얻을 수 있는 구체적 변화

🎯 즉시 활용 가능한 실무 스킬

수강 완료 후에는 다음과 같은 실전 프로젝트를 혼자서도 진행할 수 있습니다:

  • 나만의 VLM 서비스: 특정 도메인(의료, 교육, 쇼핑 등)에 특화된 이미지 분석 챗봇

  • 로컬 AI 워크플로우: MCP를 활용해 여러 AI 도구들이 협업하는 자동화 시스템

  • 비용 효율적 AI 서비스: API 의존도를 줄이고 자체 모델로 운영하는 서비스

📈 커리어 발전을 위한 포트폴리오

  • GitHub 저장소: 전체 실습 코드와 훈련된 모델을 정리한 완성도 높은 레포지토리

  • 기술 블로그 소재: VLM 파인튜닝 과정과 결과를 정리한 기술 포스팅 작성 가능

  • 면접 경험담: "직접 VLM을 파인튜닝해본 경험"으로 차별화된 면접 스토리

🧠 깊이 있는 이해와 응용력

단순한 사용법을 넘어서:

  • VLM의 내부 동작 원리를 완전히 이해하여 새로운 모델도 빠르게 학습 가능

  • Quantization, GGUF 변환 등 모델 최적화 기법을 다른 프로젝트에도 응용

  • MCP 생태계를 활용한 AI 워크플로우 설계 능력

이런 내용을 배워요.

🧠 VLM 핵심 원리: CLIP에서 LLaVA OneVision까지
멀티모달 AI는 어떻게 이미지를 '이해'할까요? CLIP Vision Encoder의 원리부터 최신 LLaVA OneVision까지, VLM의 진화 과정을 단계별로 학습합니다.

🔧 실전 파인튜닝: 나만의 VLM 만들기
RunPod GPU 환경에서 LLaVA 모델을 직접 파인튜닝해 봅니다. Jupyter Notebook과 HuggingFace Accelerate를 활용한 효율적인 훈련 방법을 배웁니다.

모델 경량화: Quantization & GGUF 변환
거대한 VLM을 개인 PC에서도 실행할 수 있도록 GGUF 포맷으로 변환하고 Quantization을 적용하는 실전 기법을 익힙니다.

🔗 MCP 통합: AI 도구들의 협업
Model Context Protocol을 활용해 여러 AI 모델과 도구들을 하나의 워크플로우로 연결하는 방법을 배웁니다.

이 강의를 만든 사람

  • 2016 ~ 현재: NLP & LLM 개발 실무자 (대기업 N사 ~ S사 근무)

수강 전 참고 사항

실습 환경

  • 강의는 MacOS 기준으로 설명합니다. 윈도우 머신이라면 docker가 설치되어 있다면 대부분 따라오실 수 있습니다.

  • 강의에서는 cursor을 사용합니다. vscode 버전도 무리없이 따라오실 수 있다고 생각합니다.

  • 클라우드 환경

    • RunPod: GPU 인스턴스 대여 서비스, H100 또는 A100 사용

    • 예상 비용: 전체 실습 기준 10달러

    • 장점: 복잡한 환경 설정 없이 바로 실습 가능

    • 유의사항

      • RunPod 계정 생성 및 결제 카드 등록 필요

학습 자료

  • 첨부하는 PDF 및 소스 코드를 확인하시면 됩니다

선수 지식 및 유의사항

  • LLM 관련 지식 (이전 LLM 101 강의 참고)

  • 기본적인 Python 문법 (클래스, 함수, 모듈 사용)

  • 딥러닝/머신러닝 기초 개념 (신경망, 훈련, 추론 등)

  • GPU 환경에서의 모델 훈련 경험이 있으면 좋습니다 (필수는 아님)

  • 터미널/명령어 사용에 익숙하면 도움이 됩니다

이런 분들께
추천드려요

학습 대상은
누구일까요?

  • Multimodal, VLM이 처음인 분

  • MCP 기반 데모를 만들어 보고 싶은 사람

선수 지식,
필요할까요?

  • LLM 기초

안녕하세요
입니다.

237

수강생

32

수강평

4

답변

4.4

강의 평점

2

강의

📱contact: dreamingbumblebee@gmail.com

커리큘럼

전체

23개 ∙ (2시간 52분)

해당 강의에서 제공:

수업자료
강의 게시일: 
마지막 업데이트일: 

수강평

전체

9개

4.6

9개의 수강평

  • MLE님의 프로필 이미지
    MLE

    수강평 2

    평균 평점 5.0

    5

    61% 수강 후 작성

    대략적으로 개념 살펴보고 간단한 데모 만들어보기에 좋은것 같습니다. 초반에 빠르게 개념잡는 용으로는 나쁘지 않네요

    • HAENARA SHIN님의 프로필 이미지
      HAENARA SHIN

      수강평 9

      평균 평점 4.4

      3

      61% 수강 후 작성

      101 클래스라기 보다는 전공했거나 다뤄본 사람이 휘리릭 넘겨 보는 정도인것 같습니다.

      • Yeojang-yoon님의 프로필 이미지
        Yeojang-yoon

        수강평 3

        평균 평점 5.0

        5

        30% 수강 후 작성

        • 최영선님의 프로필 이미지
          최영선

          수강평 9

          평균 평점 4.7

          5

          100% 수강 후 작성

          핵심적인 내용은 짧은 시간에 잘 설명하시는 것 같습니다.

          • DeepSeek님의 프로필 이미지
            DeepSeek

            수강평 2

            평균 평점 5.0

            5

            100% 수강 후 작성

            강의 덕분에 MCP 구조와 데모 제작 방법을 빠르게 익힐 수 있었습니다. 앞에서는 복잡한 내용을 단계별로 잘 풀어주고, 후반부는 실습 중심 구성이라 실무에 바로 활용하기 좋았습니다.

            월 ₩15,400

            5개월 할부 시

            ₩77,000

            꿈꾸는범블비님의 다른 강의

            지식공유자님의 다른 강의를 만나보세요!

            비슷한 강의

            같은 분야의 다른 강의를 만나보세요!