최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
딥러닝 최신 기술 중 하나인 Vision Transformer를 공부하고 Pytorch를 이용하여 논문을 구현하는 강의입니다. 비전 분야의 새로운 미래를 저와 함께 경험해 봐요!
수강생 1,178명
난이도 중급이상
수강기한 무제한

- 미해결
mean attention distance
vit 결과 부분에서 mean attention distance가 멀다는게 왜 전체적으로 본다는걸 의미하는지 잘 모르겠습니다
딥러닝pytorch컴퓨터-비전vision-transformer옴뇸뇸
・
일 년 전
0
167
2
- 해결
안녕하세요, vit에 관심이 많은 사람입니다.
vit.ipynb 파일에서, 코드 !python <a target="_blank" rel="no
딥러닝pytorch컴퓨터-비전vision-transformer한동훈
・
1
222
1
- 해결
positional embedding 학습이 잘 안되는 문제
cifar10 말고 다른 이미지셋을 가지고 학습을 시켜보았는데, 시각화를 해 보니 수업에서 보여주셨던 것과는 다르게 positional embedding 학습이 잘 안되었습니다. 어디를 봐야할지 조언을 부탁드려도 될까요?
딥러닝pytorch컴퓨터-비전vision-transformerjinyoung.jun
・
1
354
1
- 해결
행렬 차원 수 질문
안녕하세요.'비전 트랜스포머-최신 모델' 강의 11:36 근처 슬라이드를 기준으로 질문드리겠습니다. (사실 그 이후부터 계속 지속적으로 차원 혼동이 있는 것 같아서, 하나를 기준삼아서 질문드리면 나머지가 저절로 해결될 것 같습니다.)&n
딥러닝pytorch컴퓨터-비전vision-transformer호몰로지와코호몰로지
・
0
307
1
- 해결
Self Attention 질문 있습니다.
1.q와 k를 내적 하는 이유가 궁금합니다. 이는 입력의 유사도 행렬을 얻기 위함으로 알고 있습니다. 그렇다면 q와 k가 아닌 q와 q의 트랜스포즈로 내적하면 안되는걸까요?음 ...업데이트 할때 q와 k가 비슷하게 학습되었다는 가정을 가지고 내적 한걸
딥러닝pytorch컴퓨터-비전vision-transformerkokp
・
0
317
1
- 해결
Multi-Head Attention 모델 구조에서 궁금한게 있습니다.
안녕하세요. 코드 공부하면서 궁금한 점이 생겨 질문남깁니다.앞선 이론 강의에서 이해한 바로는 MSA과정에서 Attention*value를 통해 [배치수, 헤드수, 패치수+1, Dh] 차원의 결과들이 나오고 Linear Projection을 통해 [배치
딥러닝pytorch컴퓨터-비전vision-transformer김남욱
・
0
554
1
- 해결
전처리 관련해서 질문이 있습니다
안녕하세요 강사님. 항상 좋은 강의 감사드립니다.데이터 전처리에 대해서 2가지 궁금점이 있어서 질문드립니다.RandomCrop 이나 Flip 같은 전처리는 데이터 증강을 위해서도 사용된다고 알고있는데 해당 전처리를 적용해주면
딥러닝pytorch컴퓨터-비전vision-transformer김남욱
・
1
357
1
- 해결
답변에 대한 추가질문이 있습니다.
답변 감사드립니다!강의를 통해 Head 수에 따라 다양한 영역에 대한 Attention 이 가능하다고 이해했습니다. 이에 따른 추가적인 궁금한 부분이 있습니다. (아래 질문은 배치 사이즈를 배제하고 질문드립니다.)Um
딥러닝pytorch컴퓨터-비전vision-transformer김남욱
・
1
298
1
- 해결
헷갈리는게 몇개 있습니다ㅠㅠ
안녕하세요 강사님.Transformer 에 대해 처음 공부해보니 헷갈리는 부분들이 있어서 질문남깁니다.1) k 개의 Multi-Head를 만든 후에 Linear를 해주는 이유가 따로 있는지 궁금합니다. 단순히 Residual Connect
딥러닝pytorch컴퓨터-비전vision-transformer김남욱
・
1
369
1
- 해결
Positional Encoding, KQV 질문입니다!
안녕하세요!제가 여쭙고 싶은 질문이 2가지 있습니다. Positional Encoding은 이미지를 패치로 바꿔주었을 때 순서 유지를 목적으로 순서를 기억하는 용도로 이해를 하였는데, 코드에서 랜덤한 값
딥러닝pytorch컴퓨터-비전vision-transformer강현구
・
2
613
1
- 미해결
강의 자료 슬라이드
강의 자료에 슬라이드는 없나요??
딥러닝vision-transformer컴퓨터-비전딥러닝pytorch컴퓨터-비전arokim37
・
0
730
2
- 해결
비전 트랜스포머 - 최신 모델 강의에서 positional embedding
안녕하세요!비전 트랜스포머 - 최신 모델 강의에서예시로 설명해주신 R^65*128에 Epos 인 positional embedding을 더하는데도 R^65*128의 크기에는 변화가 없나요?? 이전에 클래스 정보를 더했을 때는 64에
딥러닝vision-transformer컴퓨터-비전딥러닝컴퓨터-비전pytorcharokim37
・
2
458
1
- 미해결
비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산
안녕하세요! 항상 좋은 강의 해주셔서 감사드립니다.'비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산하면 B*N*D 가 된다고 하셨는데 어떤 연산을 통해서 어떻게 B*N*D로 변환되는지 궁금합니다. 그냥 B*N*K에서
딥러닝pytorch컴퓨터-비전컴퓨터-비전딥러닝vision-transformerpytorchvision-transformerarokim37
・
1
395
1
- 미해결
'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)
안녕하세요!'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)쿼리와 키 transpose한 것이 어떻게 쿼리와 키의 유사도를 나타내는지 잘 이해가 가지 않습니다.
딥러닝pytorch딥러닝컴퓨터-비전컴퓨터-비전vision-transformerarokim37
・
1
708
1
- 미해결
training
안녕하세요 수업 잘 듣고 있습니다. 제 input 파일들 (이미지, annotated file)로 Vision transformer를 colab에서 훈련해보려고 시도해보았습니다. 그런데, RuntimeError:CUDA out of memory가 뜨더라구요. 제
pytorch컴퓨터-비전딥러닝vision-transformerjiyo1119
・
1
281
1
- 미해결
Image가 입력일 때 Cross Attention 결과가 궁금합니다.
안녕하세요. 선생님Cross Attention에 대한 질문을 드리고 싶습니다. Flatten 및 embedding된 이미지 A(784xC), 이미지 B(1024×C)가 있을 때, 이미지 A를 Cross Attention의 Key
pytorch컴퓨터-비전딥러닝vision-transformergodsome_28
・
0
878
1
- 해결
Transformer의 input에 대해 질문드립니다.
안녕하세요. Transformer에 대해 공부하면서 궁금한 점?이 있어 질문 글을 올리게 되었습니다.<
컴퓨터-비전pytorch딥러닝vision-transformeralsdn2530
・
1
407
1
- 미해결
ViT에 대한 전반적인 질문 드립니다!
선생님 안녕하세요, 덕분에 좋은 강의 잘 들었습니다! 조금 기초적인? 질문이 있는데요, 어텐션의 key, query, value를 사용해서 key와 query간의 유사도를 도출하고 그 값을 value값에 곱해줌으로써 이미지 안
컴퓨터-비전pytorch딥러닝vision-transformervecum0814
・
1
385
1
- 해결
Key query value관련 질문
안녕하세요 강사님. 비전 트랜스포머를 열심히 듣고 있는 학
트랜스포머셀프어텐션컴퓨터-비전pytorch딥러닝vision-transformer이상원
・
1
555
2
- 미해결
Fine tuning 관련하여 질문 드립니다.
안녕하세요! 항상 강의 잘 듣고 있습니다! 다름이 아니라 현재 파일에 포함된 vit.ipynb 파일에서는 train 부분에서 pretrain이 1로 설정되어 있어서 제공된 model.pth을 사용하여 파인 튜닝하게 되는데 해당 모델은 어떤 데이터를 어
딥러닝컴퓨터-비전pytorchvision-transformervecum0814
・
1
639
1






