inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Học Transformer thông qua việc triển khai

Triển khai cuối cùng mô hình Vision Transformer và sao chép các tham số huấn luyện của mô hình torchvision vit-b-16

코드에 오타가 있는 것 같습니다

53

lovewrite030110

8 câu hỏi đã được viết

0

안녕하세요, 강사님 강의 열심히 잘 듣고 있습니다.

visionTransformer생성 부분에서,

제가 잘못 이해하였는 것일 수 있으나,

class VisionTransformer(nn.Module):

def init(self, img_size, patch_size, num_layers, num_heads,

embed_dim, mlp_dim, attention_dropout, dropout, num_classes=1000):

super().__init__()

#Patch Embedding 모듈, class token, position embedding 파라미터 생성.

self.patch_embedding = PatchEmbedding(img_size=img_size, in_channels=3,

patch_size=patch_size, embed_dim=embed_dim)

self.class_token = nn.Parameter(torch.zeros(1, 1, embed_dim))

seq_length = (img_size // patch_size) ** 2

self.pos_embed = nn.Parameter(torch.empty(1, seq_length+1, embed_dim).normal_(std=0.02))

#Encoder 생성.

self.encoder = Encoder(num_layers=num_layers, num_heads=num_heads, embed_dim=embed_dim,

mlp_dim=mlp_dim, attention_dropout=attention_dropout, dropout=dropout)

#최종 classification Linear Layer 생성

self.head = nn.Linear(embed_dim, num_classes)

def get_patch_class_pos_embedding(self, input_tensor):

patched_tensor = self.patch_embedding(input_tensor)

batch_size = patched_tensor.shape[0]

# batch_size 만큼 class token을 증식하고 patch embedding 된 patched_tensor의 맨 앞에 concat

batch_class_token = self.class_token.expand(batch_size, -1, -1)

patch_class_embed = torch.cat([batch_class_token, patched_tensor], dim=1)

# position embedding을 더함.

patch_class_pos_embed = patch_class_embed + self.pos_embed

return patch_class_embed
마지막 return 부분이 patch_class_embed가 아닌 patch_class_pos_embed로 수정되어야 할 것 같습니다. 파라미터 사이즈에는 영향이 없으나 버그가 발생할 수 있을 것 같아 이렇게 글 남깁니다.

 

항상 좋은 강의 감사드립니다. 혹시나 의도하신 것이라면 제가 잘못 이해한 것이니 바로 잡아주시길 바랍니다.

 

감사합니다.

딥러닝 pytorch encoder-decoder bert transformer

Câu trả lời 2

0

dooleyz3525

안녕하십니까,

앗 그렇군요. 오타를 찾아주셔서 감사합니다.

제가 설날이라 지방에 있어서 답변이 늦었습니다. 올라가는 대로 코드 다시 확인하겠습니다.

감사합니다.

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. lovewrite030110님.

Vision Transformer를 구현하시면서 코드 오타를 발견하신 것 같습니다. 지적해주신 부분에 대해 간단히 설명드리겠습니다.

말씀하신 대로, 함수 get_patch_class_pos_embedding의 마지막 return 문에서 patch_class_embed를 반환하는 대신 patch_class_pos_embed를 반환하는 것이 더 적절해 보입니다. 이는 position embedding을 포함한 완전한 임베딩을 반환하여 모델의 나머지 부분에서 정확히 처리할 수 있도록 보장합니다.

이와 관련된 비슷한 질문이 있던 게시글도 참고해보시면 더 많은 정보를 얻을 수 있을 것 같습니다:

강의 내용에 대해 주의를 기울여주신 점 감사드리며, 혹시라도 의문점이 있다면 다시 질문해 주시기 바랍니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

import torch가 안되는 경우는 어떻게 하나요?

0

16

1

소리가 겹쳐서 들려요

0

23

2

20강에서 파인튜닝 때 사용한 데이터가 없어졌습니다. LoRA Trainer 매개변수도 라이브러리 업그레이드로 수정되었습니다.

0

20

1

[개정판] 딥러닝 컴퓨터 비전 완벽 가이드 먼저? 구현하며 배우는 Transformer 먼저?

0

30

1

수업자료

0

24

2

전 강의와 전혀 이어지지가 않음

0

30

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

38

3

pc에서는 괜찮은데 탭으로 들으니 화면확대시 화면이 까맙니다

0

22

1

강의 환경설정 질문

0

40

2

모든 자료 다운로드 누를때마다 똑같은 excel파일이 다운로드 받아짐. 노션 주소 공유되나요?

0

32

2

오토인코더+ Knn, SVC 로 해석하는경우

0

45

3

강의 영상 오류

0

58

1

Embedding 모델 fine tuning 관련 질문

0

71

2

코드 오타가 있는것 같습니다.

0

68

2

트랜스포머 모델 구조에서 Encode-Decoder Attenttion에 대해서

0

68

2

트랜스포머 구조에서 블럭갯수에 대해서

0

61

2

RNN에서 출력 y에대해서..

0

58

1

embedding 값 시각화 해보기에서

0

52

1

length_penalty 부분이 없는 것 같습니다.

1

54

1

멀티 헤드 셀프 어텐션에서 Wq, Wk, Wv의 구조 관련 질문

0

79

3

MLM, NSP 구현 여부

0

70

2

bert encoding input_ids.size(1)에 대하여

0

58

2

트랜스포머 학습 강의

0

92

2

Q, K, V 초기 임베딩

0

69

1