inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지

비전 트랜스포머 - 최신 모델

Dh의 의미

319

김성웅

작성한 질문수 24

1

안녕하세요. 강의 잘 듣고 있습니다.

 

ViT 구조 설명에서 Dh의 의미가 궁금합니다.

D x 3Dh에서 Dh요!

 

슬라이드에 표기된 것처럼 Dh = D/k 인가요?

만약 그렇게 되면, 왜 key로 D를 나누는 지 궁금합니다!

pytorch 딥러닝 컴퓨터-비전 vision-transformer

답변 1

1

딥러닝호형

안녕하세요. 김성웅님 :)

 

Dh는 각 헤드의 디멘젼이고 Dh=D/k에서의 k는 헤드의 수입니다. 즉, latent vector dimension을 동일하게 나누어 각 헤드의 디멘젼을 정의한 것입니다. 정의에 관해서는 D=k*Dh이기 때문에 모든 헤드를 포함한 전체 차원을 D라고 놓고 계산할 수 있기 때문에 계산도 편하고 구현도 편해집니다 :)

코드 설명부분에서 확인 가능하십니다!

 

0

김성웅

이해했습니다. 항상 친절한 설명 감사드립니다 :)

mean attention distance

0

212

2

안녕하세요, vit에 관심이 많은 사람입니다.

1

242

1

positional embedding 학습이 잘 안되는 문제

1

372

1

행렬 차원 수 질문

0

319

1

Self Attention 질문 있습니다.

0

333

1

Multi-Head Attention 모델 구조에서 궁금한게 있습니다.

0

565

1

전처리 관련해서 질문이 있습니다

1

364

1

답변에 대한 추가질문이 있습니다.

1

306

1

헷갈리는게 몇개 있습니다ㅠㅠ

1

384

1

Positional Encoding, KQV 질문입니다!

2

627

1

강의 자료 슬라이드

0

745

2

비전 트랜스포머 - 최신 모델 강의에서 positional embedding

2

472

1

비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산

1

404

1

'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)

1

724

1

training

1

292

1

Image가 입력일 때 Cross Attention 결과가 궁금합니다.

0

895

1

Transformer의 input에 대해 질문드립니다.

1

418

1

ViT에 대한 전반적인 질문 드립니다!

1

401

1

Key query value관련 질문

1

576

2

Fine tuning 관련하여 질문 드립니다.

1

655

1

코드 질문

1

322

1

scheduler관련 질문드립니다.

2

281

1

E, Epos

0

315

1

key의 차원으로 정규화

0

173

1