inflearn logo
강의

講義

知識共有

最新のディープラーニング技術 Vision Transformerの概念からPytorchの実装まで

Vision Transformer - 学習結果

답변에 대한 추가질문이 있습니다.

解決済みの質問

301

knw4071421

投稿した質問数 63

1

답변 감사드립니다!

강의를 통해 Head 수에 따라 다양한 영역에 대한 Attention 이 가능하다고 이해했습니다. 이에 따른 추가적인 궁금한 부분이 있습니다. (아래 질문은 배치 사이즈를 배제하고 질문드립니다.)

  1. Umsa를 통한 Linear Projection 이전의 shape는 (N x Dh x k) 이고, 이후의 shape는 (N x D)로 k가 사라져서 다양한 영역을 Attention 하고자 하는 의도가 사라지는 것 아닌지, 그렇다면 Umsa의 역할이 무엇인지 헷갈렸습니다. Umsa를 통한 Linear Projection을 진행한 후에도 다양한 영역을 Attention하고자 하는 Head의 특성이 반영되기에 상관이 없는건지 궁금합니다.

     

  2. Umsa도 무작위로 주어지고 학습을 통해 최적화되는 것이 맞을까요?

딥러닝 pytorch 컴퓨터-비전 vision-transformer

回答 1

0

dlbro

안녕하세요.

 

  1. U_msa를 통해 z_l 과 z_(l+1)의 크기를 같게 합니다. 이는 레이어의 깊이를 조절하는데 자유롭게 하기위함입니다. attention 정보는 U_msa 연산이 아닌 Q,K,V 연산에서 나오게 됩니다. 즉, U_msa는 헤드의 특성과는 무관합니다.

  2. 최적화되는 것이 맞다는 것이 무슨 의미인가요? 모델의 초기 가중치를 랜덤하게 갖는 것에 대해서 말씀하시는 것이라면 U_msa 뿐만 아니라 기본적으로 모델의 초기 가중치는 랜덤으로 주어집니다. 당연히 전이 학습이 가능하거나 초기 가중치에 대한 정보를 가지고 있다면 랜덤으로 하지 않아도 됩니다.

감사합니다!

mean attention distance

0

199

2

안녕하세요, vit에 관심이 많은 사람입니다.

1

233

1

positional embedding 학습이 잘 안되는 문제

1

365

1

행렬 차원 수 질문

0

315

1

Self Attention 질문 있습니다.

0

325

1

Multi-Head Attention 모델 구조에서 궁금한게 있습니다.

0

555

1

전처리 관련해서 질문이 있습니다

1

362

1

헷갈리는게 몇개 있습니다ㅠㅠ

1

375

1

Positional Encoding, KQV 질문입니다!

2

623

1

강의 자료 슬라이드

0

738

2

비전 트랜스포머 - 최신 모델 강의에서 positional embedding

2

468

1

비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산

1

401

1

'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)

1

717

1

training

1

288

1

Image가 입력일 때 Cross Attention 결과가 궁금합니다.

0

889

1

Transformer의 input에 대해 질문드립니다.

1

415

1

ViT에 대한 전반적인 질문 드립니다!

1

394

1

Key query value관련 질문

1

567

2

Fine tuning 관련하여 질문 드립니다.

1

647

1

코드 질문

1

316

1

Dh의 의미

1

309

1

scheduler관련 질문드립니다.

2

276

1

E, Epos

0

304

1

key의 차원으로 정규화

0

167

1