Transformer의 input에 대해 질문드립니다.

Câu trả lời 1
1
안녕하세요 :)
말씀하신게 맞습니다. 트랜스포머도 말씀하신 방법들과 같이 인풋의 순서가 있습니다.
하지만 학습 가능한 포지셔널 임베딩을 사용하고 있다는 점과 멀티헤드 어텐션을 통해 먼 거리에 있는 시퀀스 관계를 보다 효율적으로 다룰 수 있다는 점이 가장 큰 차이점이라고 할 수 있습니다.
감사합니다!
mean attention distance
0
204
2
안녕하세요, vit에 관심이 많은 사람입니다.
1
238
1
positional embedding 학습이 잘 안되는 문제
1
369
1
행렬 차원 수 질문
0
316
1
Self Attention 질문 있습니다.
0
328
1
Multi-Head Attention 모델 구조에서 궁금한게 있습니다.
0
563
1
전처리 관련해서 질문이 있습니다
1
364
1
답변에 대한 추가질문이 있습니다.
1
304
1
헷갈리는게 몇개 있습니다ㅠㅠ
1
381
1
Positional Encoding, KQV 질문입니다!
2
626
1
강의 자료 슬라이드
0
743
2
비전 트랜스포머 - 최신 모델 강의에서 positional embedding
2
471
1
비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산
1
403
1
'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)
1
723
1
training
1
291
1
Image가 입력일 때 Cross Attention 결과가 궁금합니다.
0
893
1
ViT에 대한 전반적인 질문 드립니다!
1
400
1
Key query value관련 질문
1
574
2
Fine tuning 관련하여 질문 드립니다.
1
652
1
코드 질문
1
322
1
Dh의 의미
1
317
1
scheduler관련 질문드립니다.
2
281
1
E, Epos
0
315
1
key의 차원으로 정규화
0
172
1

