inflearn logo
강의

Course

Instructor

From the concept of the latest deep learning technology Vision Transformer to Pytorch implementation

비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산

401

arokim37

8 asked

1

안녕하세요! 항상 좋은 강의 해주셔서 감사드립니다.


'비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산하면 B*N*D 가 된다고 하셨는데 어떤 연산을 통해서 어떻게 B*N*D로 변환되는지 궁금합니다. 그냥 B*N*K에서 단순히 K의 형태를 바꾸는 연산만 하면 안되는 건가요?? 어떤 원리로 연산을 통해 변환이 되는 건지 궁금해서 질문 드립니다.

그리고 연산에서 R^N*D 에서 기호 R은 무엇을 뜻하는지 궁금합니다.

감사합니다.

딥러닝 pytorch 컴퓨터-비전 딥러닝 컴퓨터-비전 vision-transformer

Answer 1

1

dlbro

안녕하세요.

파이토치 nn.linear는 3차원 데이터에 대한 연산(배치 매트릭스 곱)을 할 수 있습니다. 각 배치 B개에 대한 N*K K*D 매트릭스 곱을 해주어 B*N*D라는 결과가 나오게 됩니다.

그리고 굵은R을 말씀하시는거죠? 실수 집합을 의미합니다. 즉, 해당 값이 크기가 ND이고 실수라는 의미입니다.

 

감사합니다.

mean attention distance

0

199

2

안녕하세요, vit에 관심이 많은 사람입니다.

1

233

1

positional embedding 학습이 잘 안되는 문제

1

365

1

행렬 차원 수 질문

0

315

1

Self Attention 질문 있습니다.

0

325

1

Multi-Head Attention 모델 구조에서 궁금한게 있습니다.

0

555

1

전처리 관련해서 질문이 있습니다

1

362

1

답변에 대한 추가질문이 있습니다.

1

301

1

헷갈리는게 몇개 있습니다ㅠㅠ

1

375

1

Positional Encoding, KQV 질문입니다!

2

623

1

강의 자료 슬라이드

0

738

2

비전 트랜스포머 - 최신 모델 강의에서 positional embedding

2

468

1

'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)

1

717

1

training

1

288

1

Image가 입력일 때 Cross Attention 결과가 궁금합니다.

0

889

1

Transformer의 input에 대해 질문드립니다.

1

415

1

ViT에 대한 전반적인 질문 드립니다!

1

394

1

Key query value관련 질문

1

567

2

Fine tuning 관련하여 질문 드립니다.

1

647

1

코드 질문

1

316

1

Dh의 의미

1

308

1

scheduler관련 질문드립니다.

2

276

1

E, Epos

0

304

1

key의 차원으로 정규화

0

167

1