inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Từ khái niệm Vision Transformer công nghệ deep learning mới nhất đến triển khai Pytorch

Positional Encoding, KQV 질문입니다!

Đã giải quyết

623

kahk000

5 câu hỏi đã được viết

2

안녕하세요!

제가 여쭙고 싶은 질문이 2가지 있습니다.

 

  1. Positional Encoding은 이미지를 패치로 바꿔주었을 때 순서 유지를 목적으로 순서를 기억하는 용도로 이해를 하였는데, 코드에서 랜덤한 값으로 지정하여 이를 단순 더해줍니다. 단순 랜덤한 값을 더해주는 과정인데, 이게 왜 위치를 기억하는 positional encoding이 되는지 이해가 가지 않습니다.

  2. Key Query Value 관련해서 셋 모두 Linear Projection을 진행하는데, 같은 representation 하나에 대해서 세개 모두 단순 선형변환을 진행하면 같은 벡터가 나오지 않나 하는 의문이 들었습니다. 만약 그렇다면, 왜 같은 과정을 K Q V 세번이나 진행하는지, 만약 다르다면 nn.Linear를 진행할 경우 벡터 방향이 비슷하게 다른 벡터로 벡터공간에 주입이 되는지 궁금합니다.

강의 너무너무 유익했습니다. 감사합니다!

딥러닝 pytorch 컴퓨터-비전 vision-transformer

Câu trả lời 1

0

dlbro

안녕하세요.

 

좋은 질문입니다!!

 

  1. 저자들은 여러가지 포지셔널 임배딩을 실험했고 그 결과 포지셔널 임배딩의 유무에는 큰 성능 차이가 있었지만 임배딩 방법 간의 유의미한 차이가 없었다고 합니다. 이는 ViT는 이미지가 픽셀 수준에서 보는게 아닌 패치 수준에서 입력 인코딩이 진행되기 때문에 단순히 각 패치(각 위치)에 특정 벡터를 더하더라도 효과를 볼 수 있었다고 합니다.

     

  2. 같은 Linear 연산이지만 아시다시피 파라메터를 공유하지 않으므로 다른 값을 출력하게 됩니다. 결국 각자 다른 역할을 합니다 :)

감사합니다.

mean attention distance

0

199

2

안녕하세요, vit에 관심이 많은 사람입니다.

1

233

1

positional embedding 학습이 잘 안되는 문제

1

365

1

행렬 차원 수 질문

0

315

1

Self Attention 질문 있습니다.

0

325

1

Multi-Head Attention 모델 구조에서 궁금한게 있습니다.

0

555

1

전처리 관련해서 질문이 있습니다

1

362

1

답변에 대한 추가질문이 있습니다.

1

301

1

헷갈리는게 몇개 있습니다ㅠㅠ

1

375

1

강의 자료 슬라이드

0

738

2

비전 트랜스포머 - 최신 모델 강의에서 positional embedding

2

468

1

비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산

1

401

1

'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)

1

717

1

training

1

288

1

Image가 입력일 때 Cross Attention 결과가 궁금합니다.

0

889

1

Transformer의 input에 대해 질문드립니다.

1

415

1

ViT에 대한 전반적인 질문 드립니다!

1

394

1

Key query value관련 질문

1

567

2

Fine tuning 관련하여 질문 드립니다.

1

647

1

코드 질문

1

316

1

Dh의 의미

1

309

1

scheduler관련 질문드립니다.

2

276

1

E, Epos

0

305

1

key의 차원으로 정규화

0

167

1