작성
·
396
0
Encoder의 Output은 attention vector (seq_len x d model) 하나가 나오는데, Decoder의 인풋으로 들어갈 땐 이를 encoder에서 배웠던 Q, K, V 로 나눈뒤, 이중에서 K, V 가 Decoder의 Encoder-Decoder attention layer에서의 K, V로 사용된다고 보면 될까요?
답변 1
1
네, 맞습니다. 트랜스포머 모델에서 인코더의 출력은 디코더의 인풋으로 사용됩니다. 인코더의 출력은 Query(Q), Key(K), Value(V)로 변환됩니다. 이때 디코더의 인코더-디코더 어텐션 메커니즘에서 인코더의 출력은 K와 V로 사용되며, 디코더의 현재 상태는 Q로 사용됩니다.
인코더-디코더 어텐션 메커니즘은 디코더가 인코더의 모든 위치에 접근할 수 있도록 해주는 메커니즘입니다. 이는 인코더의 각 단어가 디코더에 의해 얼마나 집중되는지에 대한 정보를 제공합니다.
좋은 질문 감사합니다.