key의 차원으로 정규화

From the concept of the latest deep learning technology Vision Transformer to Pytorch implementation

Transformer - Attention is all you need

2022-04-03T15:28:10.839Z

167

wqqqq

7 asked

중간에 루트 키의 차원으로 나눠주는 부분에 있어서 내적이 너무 커지는 것을 방지하기 위함이라고 하셨는데 내적이 커지면 왜 그레디언트 배니싱 현상이 일어나는 것인가요?

딥러닝 컴퓨터-비전 pytorch vision-transformer

Answer 1

dlbro

2022-04-03T21:22:39.938Z

안녕하세요.

좋은 질문 감사합니다.

트랜스포머 저자들이 좀 애매한 표현으로 관련 내용을 언급하였습니다. 내적의 차원과 크기가 커질 경우 softmax의 결과가 미분값이 작은 구간에 모여있을 것이라고 추측 했다고 합니다.

루트 d_k로 나누는 이유는 키, 쿼리 값이 평균 0, 분산 1인 독립 변수라고 가정할 때 내적의 평균과 분산이 각각 0, d_k이 나옵니다. 개인적인 생각으로는 루트 d_k로 나누어 분산을 다시 1로 만들어 키, 쿼리, 내적이 같은 분포를 따르게 하려고 했던 것 같습니다.

추가적으로 CIFAR10을 이용한 우리 실험에서는 스케일링에 대한 유의미한 차이는 없었습니다.

열공하세요!

mean attention distance

2025-03-18T07:25:16.117Z

199

안녕하세요, vit에 관심이 많은 사람입니다.

2024-07-23T12:20:35.126Z

233

positional embedding 학습이 잘 안되는 문제

2024-04-18T23:13:24.933Z

365

행렬 차원 수 질문

2023-12-15T13:33:20.313Z

315

Self Attention 질문 있습니다.

2023-12-01T08:05:56.247Z

325

Multi-Head Attention 모델 구조에서 궁금한게 있습니다.

2023-07-27T07:11:04.706Z

555

전처리 관련해서 질문이 있습니다

2023-07-25T10:28:04.936Z

362

답변에 대한 추가질문이 있습니다.

2023-07-11T10:30:03.540Z

301

헷갈리는게 몇개 있습니다ㅠㅠ

2023-07-05T16:07:48.200Z

375

Positional Encoding, KQV 질문입니다!

2023-06-16T18:32:40.332Z

623

강의 자료 슬라이드

2023-02-10T08:56:46.889Z

738

비전 트랜스포머 - 최신 모델 강의에서 positional embedding

2023-01-24T02:48:06.936Z

468

비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산

2023-01-24T02:30:05.734Z

401

'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)

2023-01-23T11:56:46.102Z

717

training

2022-11-12T04:20:42.143Z

288

Image가 입력일 때 Cross Attention 결과가 궁금합니다.

2022-09-21T23:34:39.847Z

889

Transformer의 input에 대해 질문드립니다.

2022-07-25T13:18:51.058Z

415

ViT에 대한 전반적인 질문 드립니다!

2022-05-11T16:12:15.788Z

394

Key query value관련 질문

2022-05-11T12:17:45.787Z

567

Fine tuning 관련하여 질문 드립니다.

2022-05-07T18:28:32.441Z

647

코드 질문

2022-05-06T06:46:31.211Z

316

Dh의 의미

2022-05-05T02:36:13.948Z

309

scheduler관련 질문드립니다.

2022-04-30T15:51:37.473Z

276

E, Epos

2022-04-04T16:10:58.740Z

304