Image가 입력일 때 Cross Attention 결과가 궁금합니다.

Question

안녕하세요. 선생님Cross Attention에 대한 질문을 드리고 싶습니다. Flatten 및 embedding된 이미지 A(784xC), 이미지 B(1024×C)가 있을 때, 이미지 A를 Cross Attention의 Key와 Value로,이미지 B를 Cross Attention의 Query로 사용하려고 합니다. Scale dot attention 계산 과정 중Softmax(QK^T/sqrt(d_k)까지 하면(1024x784)인 행렬이 나올테고 이 행렬에 Value를 행렬곱하면(1024xC)가 나올텐데그럼 Attention한 결과(1024xC)는 이미지 A에 대한 내용이 맞나요? 원래 이미지 A는 784행으로 이루어져 있었는데결과는 1024행으로 나와서 헷갈려서요.

Answer

안녕하세요.z의 크기를 항상 일정하게 해야만 MSA의 반복 연산이 가능합니다.그런데 어떤 의도신지는 모르겠지만 왜 q,k,v의 크기가 다른거죠?q = 1024 x ck = 874 x cv = 874 x c라고 하면 qk^T가 1024 x 874이므로 A가 1024 x 874이고 Av는 1024 x c가 되므로 다음 연산이 안 될 것 같습니다. 따라서 원하시는 것을 하시려면 메카니즘을 바꿔야 할 것 같아요.감사합니다.

godsome_28

Image가 입력일 때 Cross Attention 결과가 궁금합니다.

이 글과 비슷한 Q&A

코렙 강의 자료 위치

여기 질문 드려도 되는지 모르겠지만

4-3강 cross-validation에서의 best model 선정 기준

fine-tuning 관련 질문