Section 16 [이론] Transformer의 Encoder 질문
안녕하세요, 강의 감사드립니다.
multi-head attention에서 Q,K,V 차원에 대해 질문드립니다.
1. 여기서 H는 multi-head 시킨 후 (concatnation 후)의 최종 feature 차원을 의미하는지 궁금합니다. (단일 self-attention에서도 Q,K,V에서 H와 다른거 같은데 확인부탁드립니다)
2. 만약, 1이 맞다면 Q,K,V의 차원은 N x H/M 이 되어야 하는건 아닌가 싶습니다. (m은 M을 표현하기 위한 index로 보이기 때문입니다)
혹시 제가 잘못 이해하고 있는 부분이 있다면, 정정해주시면 감사드리겠습니다!
답변 1
1
안녕하세요 변정현입니다!
(96번째 슬라이드 참조)
H는 기존의 attention의 query Q, key K, value V vector의 차원에 해당됩니다!
(113번째 슬라이드 참조)
그리고 M은 Multi-head attention의 Head의 개수입니다!
참고로, Multi-head을 사용할때, 저희는 각 Head에 해당되는 query, key, value vector들의 크기는 H/M으로 설정하게 됩니다. 그 이유는 다음과 같습니다.
Multi-head attention에서는 각 head가 output vector O_m을 하나씩 출력하게 됩니다.
따라서 M개의 output vector O_m을 구하게됩니다.
저희는 M개의 output vector들을 하나의 vector로 concatenation해서 최종 output vector인 O을 구하게 됩니다.
하지만, Q, K, V의 차원의 크기를 H로 그대로 사용하게 되면 concatenation된 최종 output vector O의 크기는 M*H가 됩니다.
그리고 Layer을 거듭할수록 M*H, M*M*H 이렇게 늘어나게 됩니다.
따라서 최종 출력되는 O의 크기가 일정하게 유지하기 위해서 각 head의 Q, K, V의 차원 크기를 H/M으로 설정하는 것입니다!
노션URL 이동문제
0
56
1
섹션12 실습코드 의 initialization 각각 적용 코드 문의
0
97
0
오타
0
82
0
혹시 이론강의 자료도 공유가 가능하실까요?
1
166
1
[sec. 2-8 실습] 배치사이즈의 선택
0
171
2
[section 14 / [실습] 직접 만든 CNN 모델과 ResNet, VGGNet을 활용한 CV 프로젝트] transforms.Normalize 질문
1
226
1
[section 14 / VGGNet ] receptive filed 질문
1
131
2
[섹션3, PyTorch로 구현해보는 Loss Function] 분류task loss함수 질문입니다.
1
232
2
KL Div Loss에서 Negative Entropy를 더해주는 의미에 대해서
1
193
2
GoogleNet Inception 모듈
1
166
2
Batch Normalization 효과
1
183
2
Layer Norm이 언어모델에 적합한 이유
1
520
1
9-2 fully connected NN
1
129
1
Mini-batch Gradient Descent computation time 질문
1
175
2
Huber Loss에 대한 질문
1
303
2
Batch size 가 극단적으로 작은 경우 (예를들어 batch_size =1) Normalization 적용 방안
3
351
1
Normalization 질문
1
270
2
Section 7 [Activation Function의 종류] Softmax logit 분포와 Entropy 질문이 있습니다
2
210
1
Section 3 [실습] PyTorch로 구현해보는 Loss Function의 Cross Entropy 구현 관련하여 질문이 있습니다.
1
299
1
Section 3의 [이론] Regression task의 Loss: L1, L2, Huber, Log Cosh Loss "미분가능"관련 에서 질문이 있습니다.
1
280
1
Section 15 실습 중, lstm 클래스의 forward 함수 질문
1
236
2
Auto Differentiation에서 computational Graph 질문있습니다
1
212
1
Section 3 이론 classification Loss function 질문
1
235
1
section4의 entropy 시그마 식 전개에 대한 질문입니다.
1
265
2





