Self Attention 질문 있습니다.
1.q와 k를 내적 하는 이유가 궁금합니다. 이는 입력의 유사도 행렬을 얻기 위함으로 알고 있습니다. 그렇다면 q와 k가 아닌 q와 q의 트랜스포즈로 내적하면 안되는걸까요?
음 ...업데이트 할때 q와 k가 비슷하게 학습되었다는 가정을 가지고 내적 한걸까요?
2.그리고 Multi Head와 그냥 Self attention의 차이가 궁금합니다.
별도의 파라미터로 학습되기때문에 하나일때보다 많은 관점이 녹아있다고 생각하면 될까요?
3.다른 댓글에서 코드A@V가 리니어 라고 하셨는데요
PPT에서는 SA(z)=Av와 [SA1(z)...]Umsa가 따로 있습니다. 코드에서는 A@V만 있는데 어떻게 연결지어서 봐야 할지 잘 모르겠습니다.
Answer 1
0
안녕하세요.
말씀하신 유사도 개념이 맞습니다. 그리고 K대신 Q로 대체하신다는 것은 구조적으로는 가능하다고 보는데 내적 Q^TQ를 하면 Q의 시퀀스 내부에서의 관계들이 계산되기 때문에 우리가 정의한 개념하고는 맞지 않습니다. 그래서 구조적인 것만 보면 Av에서 A가 v의 마스킹 역할을 하는 것인데 K, Q대신 다른 구조를 가진 A를 직접 정의해서 사용하셔도 됩니다. 당연히 성능은 검증을 하셔야 합니다 :)
맞습니다.
각각의 AV를 통해 SA1, SA2, ...를 각각 구해서 단순히 합친 것(concatenate)입니다!
감사합니다.
mean attention distance
0
199
2
안녕하세요, vit에 관심이 많은 사람입니다.
1
233
1
positional embedding 학습이 잘 안되는 문제
1
365
1
행렬 차원 수 질문
0
315
1
Multi-Head Attention 모델 구조에서 궁금한게 있습니다.
0
555
1
전처리 관련해서 질문이 있습니다
1
362
1
답변에 대한 추가질문이 있습니다.
1
301
1
헷갈리는게 몇개 있습니다ㅠㅠ
1
375
1
Positional Encoding, KQV 질문입니다!
2
623
1
강의 자료 슬라이드
0
738
2
비전 트랜스포머 - 최신 모델 강의에서 positional embedding
2
468
1
비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산
1
401
1
'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)
1
717
1
training
1
288
1
Image가 입력일 때 Cross Attention 결과가 궁금합니다.
0
889
1
Transformer의 input에 대해 질문드립니다.
1
415
1
ViT에 대한 전반적인 질문 드립니다!
1
394
1
Key query value관련 질문
1
567
2
Fine tuning 관련하여 질문 드립니다.
1
647
1
코드 질문
1
316
1
Dh의 의미
1
308
1
scheduler관련 질문드립니다.
2
276
1
E, Epos
0
304
1
key의 차원으로 정규화
0
167
1

