안드레 카파시가 들려주는 GPT 이야기
2026. 02. 18. 17:06
수정됨
며칠전 Andrej Karpathy가 공개한 microgpt.py를 한 줄 한 줄 따라가며, 토큰화, 자동 미분, 어텐션, 옵티마이저까지 GPT의 원리를 직접 확인해 봅니다. PyTorch나 TensorFlow 없이 순수 파이썬만으로 흐름을 따라가다 보면, 역전파가 연쇄 법칙이고 경사 하강법이 뺄셈이라는 걸 자연스럽게 이해하게 됩니다.
microgpt.py 는 https://gist.github.com/karpathy/8627fe009c40f57531cb18360106ce95 에서 코드를 확인할 수 있습니다. 코드를 옆에 놓고 영상을 같이 보시길 추천합니다!
https://huggingface.co/spaces/webml-community/microgpt.js 에서 직접 실행하고 microgpt 가 학습 후 직접 지은 사람의 이름을 확인할 수 있습니다. 😊
00:00:00 데이터 파이프라인
00:08:20 토큰화와 어휘집
00:14:33 Autograd 엔진: Value 클래스
00:22:37 Autograd 엔진: 역전파(Backpropagation)
00:29:39 모델 초기화: 4,192개 파라미터
00:39:02 신경망 핵심 부품: Linear, Softmax, RMSNorm
00:46:46 GPT 아키텍처: 어텐션 메커니즘
00:59:12 GPT 아키텍처: MLP & 잔차 연결
01:08:19 학습 루프: SGD & 크로스 엔트로피
01:19:32 옵티마이저: Adam 구현
01:28:54 추론과 환각(Hallucination)
01:36:12 마무리