인프런 커뮤니티 질문&답변

godsome_28님의 프로필 이미지
godsome_28

작성한 질문수

최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지

Image가 입력일 때 Cross Attention 결과가 궁금합니다.

작성

·

720

0

안녕하세요. 선생님
Cross Attention에 대한 질문을 드리고 싶습니다.

Flatten 및 embedding된 이미지 A(784xC), 이미지 B(1024×C)가 있을 때,

이미지 A를 Cross Attention의 Key와 Value로,
이미지 B를 Cross Attention의 Query로 사용하려고 합니다.

Scale dot attention 계산 과정 중
Softmax(QK^T/sqrt(d_k)까지 하면
(1024x784)인 행렬이 나올테고

이 행렬에 Value를 행렬곱하면
(1024xC)가 나올텐데
그럼 Attention한 결과(1024xC)는 이미지 A에 대한 내용이 맞나요?

원래 이미지 A는 784행으로 이루어져 있었는데
결과는 1024행으로 나와서 헷갈려서요.

답변 1

0

딥러닝호형님의 프로필 이미지
딥러닝호형
지식공유자

안녕하세요.

z의 크기를 항상 일정하게 해야만 MSA의 반복 연산이 가능합니다.

그런데 어떤 의도신지는 모르겠지만 왜 q,k,v의 크기가 다른거죠?

q = 1024 x c

k = 874 x c

v = 874 x c

라고 하면 qk^T가 1024 x 874이므로 A가 1024 x 874이고 Av는 1024 x c가 되므로 다음 연산이 안 될 것 같습니다. 따라서 원하시는 것을 하시려면 메카니즘을 바꿔야 할 것 같아요.

 

감사합니다.

 

godsome_28님의 프로필 이미지
godsome_28

작성한 질문수

질문하기