트랜스포머 Encoder Output이 Decoder Input으로 들어갈 때 관련 질문 드립니다.

Question

Encoder의Output은 attention vector  (seq_len x d model) 하나가 나오는데, Decoder의 인풋으로 들어갈 땐 이를 encoder에서 배웠던 Q, K, V 로 나눈뒤, 이중에서 K, V 가 Decoder의 Encoder-Decoder attention layer에서의 K, V로 사용된다고 보면 될까요?

Answer

네, 맞습니다. 트랜스포머 모델에서 인코더의 출력은 디코더의 인풋으로 사용됩니다. 인코더의 출력은 Query(Q), Key(K), Value(V)로 변환됩니다. 이때 디코더의 인코더-디코더 어텐션 메커니즘에서 인코더의 출력은 K와 V로 사용되며, 디코더의 현재 상태는 Q로 사용됩니다.

인코더-디코더 어텐션 메커니즘은 디코더가 인코더의 모든 위치에 접근할 수 있도록 해주는 메커니즘입니다. 이는 인코더의 각 단어가 디코더에 의해 얼마나 집중되는지에 대한 정보를 제공합니다.

좋은 질문 감사합니다.

David

트랜스포머 Encoder Output이 Decoder Input으로 들어갈 때 관련 질문 드립니다.

이 글과 비슷한 Q&A

7강 폴더 만들

test data 의 loss 계산식 문의

CRUD에서 CR만 배우는건가요

2D pose estimation model