인프런 커뮤니티 질문&답변

김남욱님의 프로필 이미지
김남욱

작성한 질문수

최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지

비전 트랜스포머 - 학습 결과

답변에 대한 추가질문이 있습니다.

해결된 질문

작성

·

231

1

답변 감사드립니다!

강의를 통해 Head 수에 따라 다양한 영역에 대한 Attention 이 가능하다고 이해했습니다. 이에 따른 추가적인 궁금한 부분이 있습니다. (아래 질문은 배치 사이즈를 배제하고 질문드립니다.)

  1. Umsa를 통한 Linear Projection 이전의 shape는 (N x Dh x k) 이고, 이후의 shape는 (N x D)로 k가 사라져서 다양한 영역을 Attention 하고자 하는 의도가 사라지는 것 아닌지, 그렇다면 Umsa의 역할이 무엇인지 헷갈렸습니다. Umsa를 통한 Linear Projection을 진행한 후에도 다양한 영역을 Attention하고자 하는 Head의 특성이 반영되기에 상관이 없는건지 궁금합니다.

     

  2. Umsa도 무작위로 주어지고 학습을 통해 최적화되는 것이 맞을까요?

답변 1

0

딥러닝호형님의 프로필 이미지
딥러닝호형
지식공유자

안녕하세요.

 

  1. U_msa를 통해 z_l 과 z_(l+1)의 크기를 같게 합니다. 이는 레이어의 깊이를 조절하는데 자유롭게 하기위함입니다. attention 정보는 U_msa 연산이 아닌 Q,K,V 연산에서 나오게 됩니다. 즉, U_msa는 헤드의 특성과는 무관합니다.

  2. 최적화되는 것이 맞다는 것이 무슨 의미인가요? 모델의 초기 가중치를 랜덤하게 갖는 것에 대해서 말씀하시는 것이라면 U_msa 뿐만 아니라 기본적으로 모델의 초기 가중치는 랜덤으로 주어집니다. 당연히 전이 학습이 가능하거나 초기 가중치에 대한 정보를 가지고 있다면 랜덤으로 하지 않아도 됩니다.

감사합니다!

김남욱님의 프로필 이미지
김남욱

작성한 질문수

질문하기