답변에 대한 추가질문이 있습니다.
답변 감사드립니다!
강의를 통해 Head 수에 따라 다양한 영역에 대한 Attention 이 가능하다고 이해했습니다. 이에 따른 추가적인 궁금한 부분이 있습니다. (아래 질문은 배치 사이즈를 배제하고 질문드립니다.)
Umsa를 통한 Linear Projection 이전의 shape는 (N x Dh x k) 이고, 이후의 shape는 (N x D)로 k가 사라져서 다양한 영역을 Attention 하고자 하는 의도가 사라지는 것 아닌지, 그렇다면 Umsa의 역할이 무엇인지 헷갈렸습니다. Umsa를 통한 Linear Projection을 진행한 후에도 다양한 영역을 Attention하고자 하는 Head의 특성이 반영되기에 상관이 없는건지 궁금합니다.
Umsa도 무작위로 주어지고 학습을 통해 최적화되는 것이 맞을까요?
Answer 1
0
안녕하세요.
U_msa를 통해 z_l 과 z_(l+1)의 크기를 같게 합니다. 이는 레이어의 깊이를 조절하는데 자유롭게 하기위함입니다. attention 정보는 U_msa 연산이 아닌 Q,K,V 연산에서 나오게 됩니다. 즉, U_msa는 헤드의 특성과는 무관합니다.
최적화되는 것이 맞다는 것이 무슨 의미인가요? 모델의 초기 가중치를 랜덤하게 갖는 것에 대해서 말씀하시는 것이라면 U_msa 뿐만 아니라 기본적으로 모델의 초기 가중치는 랜덤으로 주어집니다. 당연히 전이 학습이 가능하거나 초기 가중치에 대한 정보를 가지고 있다면 랜덤으로 하지 않아도 됩니다.
감사합니다!
mean attention distance
0
199
2
안녕하세요, vit에 관심이 많은 사람입니다.
1
233
1
positional embedding 학습이 잘 안되는 문제
1
365
1
행렬 차원 수 질문
0
315
1
Self Attention 질문 있습니다.
0
325
1
Multi-Head Attention 모델 구조에서 궁금한게 있습니다.
0
555
1
전처리 관련해서 질문이 있습니다
1
362
1
헷갈리는게 몇개 있습니다ㅠㅠ
1
375
1
Positional Encoding, KQV 질문입니다!
2
623
1
강의 자료 슬라이드
0
738
2
비전 트랜스포머 - 최신 모델 강의에서 positional embedding
2
468
1
비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산
1
401
1
'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)
1
717
1
training
1
288
1
Image가 입력일 때 Cross Attention 결과가 궁금합니다.
0
889
1
Transformer의 input에 대해 질문드립니다.
1
415
1
ViT에 대한 전반적인 질문 드립니다!
1
394
1
Key query value관련 질문
1
567
2
Fine tuning 관련하여 질문 드립니다.
1
647
1
코드 질문
1
316
1
Dh의 의미
1
309
1
scheduler관련 질문드립니다.
2
276
1
E, Epos
0
304
1
key의 차원으로 정규화
0
167
1

