답변에 대한 추가질문이 있습니다.

Question

답변 감사드립니다! 강의를 통해 Head 수에 따라 다양한 영역에 대한 Attention 이 가능하다고 이해했습니다. 이에 따른 추가적인 궁금한 부분이 있습니다. (아래 질문은 배치 사이즈를 배제하고 질문드립니다.) U msa 를 통한 Linear Projection 이전의 shape는 (N x D h x k) 이고, 이후의 shape는 (N x D)로 k가 사라져서 다양한 영역을 Attention 하고자 하는 의도가 사라지는 것 아닌지, 그렇다면 U msa 의 역할이 무엇인지 헷갈렸습니다. U msa 를 통한 Linear Projection을 진행한 후에도 다양한 영역을 Attention하고자 하는 Head의 특성이 반영되기에 상관이 없는건지 궁금합니다. U msa 도 무작위로 주어지고 학습을 통해 최적화되는 것이 맞을까요?

dlbro · Answer

안녕하세요. U_msa를 통해 z_l 과 z_(l+1)의 크기를 같게 합니다. 이는 레이어의 깊이를 조절하는데 자유롭게 하기위함입니다. attention 정보는 U_msa 연산이 아닌 Q,K,V 연산에서 나오게 됩니다. 즉, U_msa는 헤드의 특성과는 무관합니다. 최적화되는 것이 맞다는 것이 무슨 의미인가요? 모델의 초기 가중치를 랜덤하게 갖는 것에 대해서 말씀하시는 것이라면 U_msa 뿐만 아니라 기본적으로 모델의 초기 가중치는 랜덤으로 주어집니다. 당연히 전이 학습이 가능하거나 초기 가중치에 대한 정보를 가지고 있다면 랜덤으로 하지 않아도 됩니다. 감사합니다!