inflearn logo
강의

Course

Instructor

Learning Transformer Through Implementation

Final implementation of the Vision Transformer model and replicating the training parameters of the torchvision vit-b-16 model.

코드에 오타가 있는 것 같습니다

53

lovewrite030110

8 asked

0

안녕하세요, 강사님 강의 열심히 잘 듣고 있습니다.

visionTransformer생성 부분에서,

제가 잘못 이해하였는 것일 수 있으나,

class VisionTransformer(nn.Module):

def init(self, img_size, patch_size, num_layers, num_heads,

embed_dim, mlp_dim, attention_dropout, dropout, num_classes=1000):

super().__init__()

#Patch Embedding 모듈, class token, position embedding 파라미터 생성.

self.patch_embedding = PatchEmbedding(img_size=img_size, in_channels=3,

patch_size=patch_size, embed_dim=embed_dim)

self.class_token = nn.Parameter(torch.zeros(1, 1, embed_dim))

seq_length = (img_size // patch_size) ** 2

self.pos_embed = nn.Parameter(torch.empty(1, seq_length+1, embed_dim).normal_(std=0.02))

#Encoder 생성.

self.encoder = Encoder(num_layers=num_layers, num_heads=num_heads, embed_dim=embed_dim,

mlp_dim=mlp_dim, attention_dropout=attention_dropout, dropout=dropout)

#최종 classification Linear Layer 생성

self.head = nn.Linear(embed_dim, num_classes)

def get_patch_class_pos_embedding(self, input_tensor):

patched_tensor = self.patch_embedding(input_tensor)

batch_size = patched_tensor.shape[0]

# batch_size 만큼 class token을 증식하고 patch embedding 된 patched_tensor의 맨 앞에 concat

batch_class_token = self.class_token.expand(batch_size, -1, -1)

patch_class_embed = torch.cat([batch_class_token, patched_tensor], dim=1)

# position embedding을 더함.

patch_class_pos_embed = patch_class_embed + self.pos_embed

return patch_class_embed
마지막 return 부분이 patch_class_embed가 아닌 patch_class_pos_embed로 수정되어야 할 것 같습니다. 파라미터 사이즈에는 영향이 없으나 버그가 발생할 수 있을 것 같아 이렇게 글 남깁니다.

 

항상 좋은 강의 감사드립니다. 혹시나 의도하신 것이라면 제가 잘못 이해한 것이니 바로 잡아주시길 바랍니다.

 

감사합니다.

딥러닝 pytorch encoder-decoder bert transformer

Answer 2

0

dooleyz3525

안녕하십니까,

앗 그렇군요. 오타를 찾아주셔서 감사합니다.

제가 설날이라 지방에 있어서 답변이 늦었습니다. 올라가는 대로 코드 다시 확인하겠습니다.

감사합니다.

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. lovewrite030110님.

Vision Transformer를 구현하시면서 코드 오타를 발견하신 것 같습니다. 지적해주신 부분에 대해 간단히 설명드리겠습니다.

말씀하신 대로, 함수 get_patch_class_pos_embedding의 마지막 return 문에서 patch_class_embed를 반환하는 대신 patch_class_pos_embed를 반환하는 것이 더 적절해 보입니다. 이는 position embedding을 포함한 완전한 임베딩을 반환하여 모델의 나머지 부분에서 정확히 처리할 수 있도록 보장합니다.

이와 관련된 비슷한 질문이 있던 게시글도 참고해보시면 더 많은 정보를 얻을 수 있을 것 같습니다:

강의 내용에 대해 주의를 기울여주신 점 감사드리며, 혹시라도 의문점이 있다면 다시 질문해 주시기 바랍니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

import torch가 안되는 경우는 어떻게 하나요?

0

14

1

소리가 겹쳐서 들려요

0

19

2

20강에서 파인튜닝 때 사용한 데이터가 없어졌습니다. LoRA Trainer 매개변수도 라이브러리 업그레이드로 수정되었습니다.

0

20

1

[개정판] 딥러닝 컴퓨터 비전 완벽 가이드 먼저? 구현하며 배우는 Transformer 먼저?

0

30

1

수업자료

0

23

2

전 강의와 전혀 이어지지가 않음

0

30

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

38

3

pc에서는 괜찮은데 탭으로 들으니 화면확대시 화면이 까맙니다

0

22

1

강의 환경설정 질문

0

39

2

모든 자료 다운로드 누를때마다 똑같은 excel파일이 다운로드 받아짐. 노션 주소 공유되나요?

0

31

2

오토인코더+ Knn, SVC 로 해석하는경우

0

45

3

강의 영상 오류

0

58

1

Embedding 모델 fine tuning 관련 질문

0

71

2

코드 오타가 있는것 같습니다.

0

68

2

트랜스포머 모델 구조에서 Encode-Decoder Attenttion에 대해서

0

67

2

트랜스포머 구조에서 블럭갯수에 대해서

0

61

2

RNN에서 출력 y에대해서..

0

58

1

embedding 값 시각화 해보기에서

0

52

1

length_penalty 부분이 없는 것 같습니다.

1

54

1

멀티 헤드 셀프 어텐션에서 Wq, Wk, Wv의 구조 관련 질문

0

79

3

MLM, NSP 구현 여부

0

70

2

bert encoding input_ids.size(1)에 대하여

0

58

2

트랜스포머 학습 강의

0

92

2

Q, K, V 초기 임베딩

0

69

1