inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지

Image가 입력일 때 Cross Attention 결과가 궁금합니다.

891

godsome_28

작성한 질문수 4

0

안녕하세요. 선생님
Cross Attention에 대한 질문을 드리고 싶습니다.

Flatten 및 embedding된 이미지 A(784xC), 이미지 B(1024×C)가 있을 때,

이미지 A를 Cross Attention의 Key와 Value로,
이미지 B를 Cross Attention의 Query로 사용하려고 합니다.

Scale dot attention 계산 과정 중
Softmax(QK^T/sqrt(d_k)까지 하면
(1024x784)인 행렬이 나올테고

이 행렬에 Value를 행렬곱하면
(1024xC)가 나올텐데
그럼 Attention한 결과(1024xC)는 이미지 A에 대한 내용이 맞나요?

원래 이미지 A는 784행으로 이루어져 있었는데
결과는 1024행으로 나와서 헷갈려서요.

pytorch 컴퓨터-비전 딥러닝 vision-transformer

답변 1

0

딥러닝호형

안녕하세요.

z의 크기를 항상 일정하게 해야만 MSA의 반복 연산이 가능합니다.

그런데 어떤 의도신지는 모르겠지만 왜 q,k,v의 크기가 다른거죠?

q = 1024 x c

k = 874 x c

v = 874 x c

라고 하면 qk^T가 1024 x 874이므로 A가 1024 x 874이고 Av는 1024 x c가 되므로 다음 연산이 안 될 것 같습니다. 따라서 원하시는 것을 하시려면 메카니즘을 바꿔야 할 것 같아요.

 

감사합니다.

 

mean attention distance

0

200

2

안녕하세요, vit에 관심이 많은 사람입니다.

1

234

1

positional embedding 학습이 잘 안되는 문제

1

366

1

행렬 차원 수 질문

0

315

1

Self Attention 질문 있습니다.

0

326

1

Multi-Head Attention 모델 구조에서 궁금한게 있습니다.

0

559

1

전처리 관련해서 질문이 있습니다

1

362

1

답변에 대한 추가질문이 있습니다.

1

302

1

헷갈리는게 몇개 있습니다ㅠㅠ

1

377

1

Positional Encoding, KQV 질문입니다!

2

624

1

강의 자료 슬라이드

0

739

2

비전 트랜스포머 - 최신 모델 강의에서 positional embedding

2

468

1

비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산

1

402

1

'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)

1

719

1

training

1

290

1

Transformer의 input에 대해 질문드립니다.

1

416

1

ViT에 대한 전반적인 질문 드립니다!

1

396

1

Key query value관련 질문

1

568

2

Fine tuning 관련하여 질문 드립니다.

1

648

1

코드 질문

1

321

1

Dh의 의미

1

314

1

scheduler관련 질문드립니다.

2

280

1

E, Epos

0

312

1

key의 차원으로 정규화

0

171

1