작성
·
236
1
안녕하세요. 강의 잘 듣고 있습니다.
ViT 구조 설명에서 Dh의 의미가 궁금합니다.
D x 3Dh에서 Dh요!
슬라이드에 표기된 것처럼 Dh = D/k 인가요?
만약 그렇게 되면, 왜 key로 D를 나누는 지 궁금합니다!
답변 1
1
안녕하세요. 김성웅님 :)
Dh는 각 헤드의 디멘젼이고 Dh=D/k에서의 k는 헤드의 수입니다. 즉, latent vector dimension을 동일하게 나누어 각 헤드의 디멘젼을 정의한 것입니다. 정의에 관해서는 D=k*Dh이기 때문에 모든 헤드를 포함한 전체 차원을 D라고 놓고 계산할 수 있기 때문에 계산도 편하고 구현도 편해집니다 :)
코드 설명부분에서 확인 가능하십니다!
이해했습니다. 항상 친절한 설명 감사드립니다 :)