왜 Attention이 필요했는지, 그리고 어떻게 동작하는지 ‘코드로 직접 구현하며’ 이해합니다.
이 강의는 RNN과 Seq2Seq 모델의 구조적 한계에서 출발하여,
고정된 컨텍스트 벡터가 만들어내는 정보 병목 문제, 장기 의존성 문제를 실험으로 검증하고
그 한계를 해결하기 위해 Attention이 어떻게 등장했는지를 자연스럽게 이어서 설명합니다.
단순히 개념을 소개하는 것이 아니라,
RNN의 구조적 한계와 Seq2Seq의 정보 병목 문제를 직접 실험으로 확인하고,
이를 해결하기 위해 등장한 **Bahdanau Attention(가산적 어텐션)**과
**Luong Attention(점곱 어텐션)**을 하나씩 구현하며 그 차이를 명확하게 이해합니다.
각 어텐션이
어떤 방식으로 Query–Key–Value 관계를 형성하고,
가중치를 계산하는 과정에서 어떤 수학적·직관적 차이를 가지며,
왜 후대 모델로 이어질 수밖에 없었는지
그 특성과 진화 흐름까지 자연스럽게 연결됩니다.
Attention이 문장과 단어를 어떻게 바라보고,
각 단어가 어떤 방식으로 중요도를 부여받아 정보를 통합하는지를
수식 → 직관 → 코드 → 실험이 하나로 이어진 형태로 학습합니다.
이 강의는 Transformer를 제대로 이해하기 위한 ‘기초 체력’을 쌓는 과정으로,
Attention이라는 개념이 왜 혁명적이었는지,
그리고 이후의 모든 최신 NLP 모델(Transformer, BERT, GPT 등)이
왜 Attention을 핵심 구성요소로 삼는지를 깊이 있게 이해하게 됩니다.
RNN → Seq2Seq → Attention으로 이어지는 흐름을
개념이 아니라 코드와 실험으로 체화하고 싶은 학습자에게 최적화된 강의입니다.