Gemma 4 로컬 구동 완전 정복

유료 API 비용 부담 없이 내 MacBook에서 최신 Gemma 4 모델을 직접 구동하는 전 과정을 학습합니다. Apple Silicon의 Metal API를 활용한 성능 극대화 기법과 VRAM 용량별 최적 파라미터 설정을 마스터하고, FastAPI 기반 프로덕션 수준의 로컬 AI 인프라 구축 능력을 갖추게 됩니다.

2명 이 수강하고 있어요.

난이도 중급이상

수강기한 1개월

실습 중심
실습 중심
처음하는배포
처음하는배포
백엔드이해하기
백엔드이해하기
ollama
ollama
실습 중심
실습 중심
처음하는배포
처음하는배포
백엔드이해하기
백엔드이해하기
ollama
ollama

수강 후 이런걸 얻을 수 있어요

  • MacBook Pro M2/M3에서 Gemma 4 모델 설치 및 Metal API 기반 성능 최적화

  • VRAM 용량별 최적 파라미터 선택과 Ollama 트러블슈팅 실전 해결

  • FastAPI를 활용한 로컬 LLM API 서버 래핑 및 프로덕션 배포

클라우드 기반의 유료 API 비용 부담과 개인정보 유출 걱정 없이 내 컴퓨터에서 직접 Google의 최신 모델인 Gemma 4 를 구동하는 전 과정을 마스터하는 강의입니다. 이 강의는 단순히 모델을 설치하는 방법을 넘어 아키텍처에 대한 깊은 이해와 하드웨어별 최적화 전략을 제공합니다.


Gemma 4는 Local sliding window attention과 Global full attention을 교차 배치하는 Hybrid attention 메커니즘을 사용합니다. 마지막 레이어는 항상 Global attention으로 끝나며 메모리 최적화를 위해 Key-Value를 공유하고 Proportional RoPE를 적용합니다. 이 설계 덕분에 256K Context를 사용할 때도 VRAM 사용량이 폭발적으로 늘어나지 않습니다.

특히 gemma4:26b 모델은 MoE 효율성 덕분에 Q4 Quantization 기준 약 18 GB의 VRAM만으로 로드되며 같은 크기의 Dense 모델보다 메모리 압박이 훨씬 낮습니다. 이는 M2 Max 32GB 환경에서 실제 검증된 최적의 추천 모델이며 RTX 3090이나 RTX 4090 환경에서도 전체 Context를 여유롭게 사용할 수 있는 가장 명확한 선택지입니다.


사용자의 하드웨어 환경에 맞춘 모델 포맷 선택 가이드도 제공합니다. CPU와 GPU 혼합 Offload가 필요한 경우 세분화된 제어가 가능한 GGUF 포맷을 추천하며 NVIDIA GPU 전용 환경에서 처리 속도가 최우선이라면 EXL2 포맷이 유리합니다. 단 CUDA 13.2 런타임에서 GGUF를 실행하면 출력 품질이 저하되는 이슈가 있으므로 안전한 CUDA 12.x 환경을 유지하는 방법 등 실무적인 트러블슈팅을 다룹니다. Mac 사용자의 경우 Apple Metal API를 자동 감지해 GPU를 가속하므로 별도의 CUDA 설정이 불필요합니다. 추가적으로 Ollama 설치 시 흔히 발생하는 file does not exist 오류는 v0.20.0 미만 버전에서 발생하므로 GitHub에서 darwin.zip을 직접 다운로드하여 해결하는 노하우도 공유합니다.


모델 구동을 넘어 FastAPI를 활용하여 Ollama를 외부 앱에서 호출 가능한 REST API 서버로 감싸는 방법도 배웁니다. 강의에서 제공하는 기본 코드는 로컬 개발 전용이며 이를 실제 서비스로 외부에 노출할 때 반드시 추가해야 하는 Bearer 토큰 헤더 검증 미들웨어, Rate limiting 처리, HTTPS 종단 설정, 입력 길이 제한 등의 필수 보안 아키텍처 설계법도 함께 학습합니다. 단순한 취미용 설치가 아닌 프로덕션 레벨의 Local AI Server를 구축하고자 하는 엔지니어분들을 기다립니다.


이런 분들께
추천드려요

학습 대상은
누구일까요?

  • 고가의 유료 API 비용을 절감하고 싶은 AI 엔지니어 및 스타트업 개발자

  • 데이터 보안이 중요한 환경에서 로컬 LLM 인프라를 구축해야 하는 백엔드 개발자

  • MacBook Pro M2/M3 시리즈의 하드웨어 성능을 최대한 활용하고 싶은 AI 연구자

선수 지식,
필요할까요?

  • Python 기본 문법과 터미널 명령어 사용 경험

  • MacBook Pro M2 이상의 Apple Silicon 하드웨어 보유

  • API 서버 개념과 RESTful 통신에 대한 기본 이해

안녕하세요
조희진입니다.

안녕하세요, AI 엔지니어이자 풀스택 개발자로 활동하고 있는 조희진입니다. 저는 단순히 모델을 돌려보는 것에 그치지 않고, 사용자에게 가치를 전달하는 '살아있는 서비스'를 만드는 것에 집중합니다. 실전 중심의 기술 스택: Python(FastAPI, Django, LangChain)과 JavaScript/TypeScript(React, Next.js)를 기반으로, 복잡한 AI 로직을 매끄러운 사용자 경험으로 연결하는 풀스택 아키텍처를 설계합니다. 검증된 전문성: NASA Space Apps Challenge 수상 및 Hult Prize 국가 대표 선정 등 글로벌 기술 경연에서 성과를 거두었으며, 실시간 면접 보조 서비스 'InterviewMate'와 같은 실서비스를 직접 런칭하고 운영하며 쌓은 노하우를 보유하고 있습니다. 깊이 있는 연구: 단순 활용을 넘어, 프롬프트 아키텍처와 추론 프레임워크(STAR Framework)에 대한 연구를 수행하며 arXiv에 논문을 게재하는 등 최신 AI 기술의 원리를 깊게 파고듭니다. "공부용 코드가 아닌, 시장에서 동작하는 코드를 가르칩니다." 막연한 AI 이론이 답답하셨다면, 실제 프로덕트를 빌드하며 마주하는 문제 해결 과정을 저와 함께 경험해 보세요.
더보기

커리큘럼

전체

4개 ∙ (40분)

해당 강의에서 제공:

수업자료
강의 게시일: 
마지막 업데이트일: 

수강평

아직 충분한 평가를 받지 못한 강의입니다.
모두에게 도움이 되는 수강평의 주인공이 되어주세요!

비슷한 강의

같은 분야의 다른 강의를 만나보세요!

얼리버드 할인 중 (4일 남음)

월 ₩125,353

5개월 할부 시

70%

₩99,000

₩626,767