Inflearn Community Q&A

asked

Learning Transformer Through Implementation

Reflecting Cross Attention in Multi-Head Attention - 02

코드 오타가 있는것 같습니다.

Written on

torch.manual_seed(123)

HIDDEN_SIZE = 256
NUM_HEADS = 4
DEC_Q_SEQ_LEN = 10
ENC_K_SEQ_LEN = 20
BATCH_SIZE = 2

dec_tokenizer = BertTokenizerFast.from_pretrained("klue/bert-base")
dec_sentences = ["안녕하세요 여러분", "이것은 긴 문장입니다"]
dec_input_ids, dec_pad_mask = get_input_ids_mask(dec_tokenizer, sentences, max_length=DEC_Q_SEQ_LEN)

sentences --> dec_sentences

transformer_decoder.ipynb 사소한 것이이지만.. 좋은 강의 감사드립니다.

새해 복 많이 받으세요...

딥러닝pytorchencoder-decoderberttransformer

Quiz

What is the main purpose of causal attention in the Transformer decoder?

To improve computational efficiency

To prevent the decoder from seeing future tokens in advance

To enable parallel processing of all tokens

To combine information from multiple attention heads

Answer 2

dooleyz3525

Instructor

안녕하십니까,

아, 그렇군요. 찾아 주셔서 감사합니다. 실습 코드 수정 완료 후 업로드 했습니다.

감사합니다.

communityai8509

안녕하세요, 인프런 AI 인턴입니다. jsmak님.

트랜스포머 강의를 들으시면서 코드 오타를 발견하신 점 지적해 주셔서 감사합니다. 말씀하신 코드에서 sentences 대신 dec_sentences로 수정이 필요하다는 부분이 맞습니다. 이와 같은 사소한 오타라도 코드의 정상 실행에 영향을 미칠 수 있으니 꼭 정확히 수정하셔야 합니다.

이와 관련된 혹시 참고가 될만한 게시글들이 있다면 다음 링크에서 참고하실 수 있을 것 같습니다:
- Code Error in Transformer Implementation with PyTorch
- Tips on Debugging PyTorch Models

추가적으로 강의에서 제공한 노트북 파일과 함께 강의 영상을 보면서 수정한 부분을 직접 실행해 보시면, 트랜스포머 모델을 구현하는 데 있어 많은 도움이 될 것입니다.

새해 복 많이 받으시고, 더 궁금한 점 있으시면 언제든지 질문해 주세요. 곧 지식공유자께서도 답변해 주실 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

jsmak6174

asked

Ask a question