Key query value관련 질문

Question

안녕하세요 강사님. 비전 트랜스포머를 열심히 듣고 있는 학생입니다. 보통 키, 쿼리 밸류하면 어떤 임베딩된 입력을 키에 따로, 쿼리 따로 밸류 따로 linear연산을 수행을 하고 쿼리와 키를 내적을 하는 걸로 알고 있습니다. 여기서 궁금한 점이 있는데 키 쿼리 밸류 별로 linear(선형 연산)연산을 왜 하는지 궁금하게 되었습니다. 패치(이미지)에서 feature을 더 잘 뽑으려고 하는 것인가요?

dlbro · Answer

안녕하세요. 키, 쿼리, 밸류 별로 왜 linear 연산을 하는지 궁금해 하셨는데요. "왜"라는게 정확히 무엇이 궁금하신지 모르겠습니다. 키, 쿼리, 밸류는 동일한 어텐션 인풋으로 부터 얻어지는 것인데요. 모두를 linear연산으로 정의했을 때 동시에 연산할 수 있는 장점이 있고요. 또한 linear 연산은 벡터 형태로 들어오는 것을 처리하는데 가장 기본적으로 쓰이는 구조이기 때문에 쉽게 적용 가능합니다. 답변이 되셨나요? :)

sang98042981 · Answer

오오 빠른 답변감사드립니다. 처음에 임베딩된 입력벡터를 그냥 키 쿼리 밸류로 단순히 복사해서 키와 쿼리를 비교하지 않고 키와 쿼리, 밸류로 각각 linear로 한번씩 처리하고 비교하는 이유가 궁금해져서 여쭤보았습니다. 감사합니다!