[NLP 완전정복 II] Transformer 구조 해부: Attention 확장부터 전체 모델 조립, 학습까지

이 강의는 Transformer를 단순히 “구현하는 법”이 아니라, 왜 이런 구조가 만들어졌는지, 각 모듈이 어떤 역할을 하는지, 그리고 전체 모델이 어떻게 작동하는지를 설계자의 관점에서 해부하는 과정입니다. Self-Attention과 Multi-Head Attention의 내부 계산 원리를 깊이 있게 분석하고, Positional Encoding, Feed-Forward Network, Encoder·Decoder 구조가 어떤 한계를 해결하기 위해 등장했는지를 수식·논문·구현 코드로 직접 확인합니다. Attention에서 출발해 Transformer 전체 구조를 직접 조립하고, 실제로 학습까지 수행하며 모델이 어떻게 동작하는지 체득합니다. 이 강의는 “Transformer를 완전히 이해하고 싶은 사람”을 위한 가장 구조적이고 실전적인 로드맵입니다.