묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결구현하며 배우는 Transformer
트랜스포머 모델 구조에서 Encode-Decoder Attenttion에 대해서
안녕하세요.. 다시 또 궁금한 것이 생겼습니다.트랜스포머의 각 인코더 블럭의 출력이 디코더 블럭의 Encode-Decoder Attention 으로 들어가게 되는 것인가요? 아니면 인코더 블럭의 마지막 블럭의 출럭이 디코더 블럭의 최종 블럭으로 들어가는 것인가요?
-
미해결구현하며 배우는 Transformer
트랜스포머 구조에서 블럭갯수에 대해서
안녕하세요.. 트랜스포머 구조에서 Encoder 블럭의 갯수와 Decoder 블럭의 갯수가 동일해야 하는 것인가요? 아니면 Encoder -Decoder Attention 부분만 갯수를 맞추어 유지되면 되는 것인지 궁금합니다.
-
미해결구현하며 배우는 Transformer
RNN에서 출력 y에대해서..
안녕하세요.. RNN모델 설명에서, 궁금한 것이 있습니다. y_i = h_i 가 되는 것인가요?
-
미해결구현하며 배우는 Transformer
embedding 값 시각화 해보기에서
안녕하세요..16강 임베딩 값 시각화 해보기에서 궁금한 것이 있습니다.버트 토크나이저와 모델을 다운로드 받을 때 다음과 같은 오류가 났는데..2026-01-12 20:46:39.930539: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered WARNING: All log messages before absl::InitializeLog() is called are written to STDERR E0000 00:00:1768250800.289278 47 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered E0000 00:00:1768250800.409734 47 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'--------------------------------------------------------------------------- AttributeError Traceback (most recent call last) AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'--------------------------------------------------------------------------- AttributeError Traceback (most recent call last) AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'--------------------------------------------------------------------------- AttributeError Traceback (most recent call last) AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'--------------------------------------------------------------------------- AttributeError Traceback (most recent call last) AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'오류는 나더라도 토크나이저와 모델은 다운로드 받은 것 같더라구요.. Embedding(30522, 768, padding_idx=0) torch.Size([30522, 768])가 출력으로 나왔으니..별 문제가 없는 것인가요? AttributeError가 계속난 것이 신경이 쓰여서요.. 강사님이 실행한 영상에서는 나타나지 않는 오류여서.확인 부탁드립니다.
-
해결됨구현하며 배우는 Transformer
length_penalty 부분이 없는 것 같습니다.
130강 끝날 즈음에 다음 섹션이 아니라 length_penalty에 대한 설명을 해주신다고 하셨는데 없는 것 같습니다!
-
미해결구현하며 배우는 Transformer
멀티 헤드 셀프 어텐션에서 Wq, Wk, Wv의 구조 관련 질문
후반부 슬라이드 그림에 Wq, Wk, Wv 하나로 계산이 되어 헤드별로 나누어진다는 표현같이 보이는데, 오해의 소지가 있는것 같습니다. 만약 Wq, Wk, Wv가 멀티 헤드의 각각의 Wq, Wk, Wv가 concat된 것을 의미한다면 틀린것은 아니지만 그건 구현의 편의 문제이고 적어도 이 슬라이드에서는 Q, K, V가 하나의 Wq, Wk, Wv에서 계산이 되어 나누어진다는것은 혼란을 줄것 같습니다.
-
미해결구현하며 배우는 Transformer
MLM, NSP 구현 여부
안녕하세요 강사님.BERT 학습 파트와 관련하여 궁금한 점이 있어 질문드립니다. 현재 IMDB 데이터를 활용한 긍/부정 분류 학습 과정만 구현되어 있는 것으로 보이는데, 혹시 MLM이나 NSP를 통한 BERT의 초기 pre-training 과정은 포함되어 있지 않은 것인지 궁금합니다.제가 혹시 놓친 부분이 있다면 죄송합니다. 확인 부탁드립니다. 감사합니다.
-
미해결구현하며 배우는 Transformer
bert encoding input_ids.size(1)에 대하여
안녕하세요 강사님.BERT 관련 강의를 매우 유익하게 듣고 있습니다. Embedding 파트를 학습하던 중 궁금한 점이 생겨 질문드립니다.BERTEmbeddings 클래스 구현에서 초기화 시 max_len이 주어지는데, forward 단계에서는 input_ids.size(1)을 사용해 position embedding의 인덱스를 다시 정의하는 과정이 있습니다. 제가 이해한 바로는 이후 tokenizer에서 설정한 max_length와 실제 입력 길이가 달라질 수 있기 때문에 이러한 처리가 필요한 것으로 보였습니다. 혹시 강사님께서 강의 시 빠른 실행을 위해 tokenizer의 max_length를 모델의 max_len과 다르게 설정하셨기 때문에 해당 코드를 넣으신 것인지 궁금합니다. 일반적인 학습 환경에서는 tokenizer의 max_length와 모델의 max_len을 동일하게 맞추는 것이 자연스러울 것 같은데, 혹시 제가 놓친 부분이 있다면 설명해주시면 감사하겠습니다.
-
미해결구현하며 배우는 Transformer
트랜스포머 학습 강의
안녕하세요, 강사님.강의 잘 듣고 있습니다. 한 가지 궁금한 점이 있는데요, 트랜스포머 Seq2Seq 모델은 구현까지만 되어 있고 학습 과정에 대한 강의는 없는 것 같습니다. 혹시 BERT나 MarianMT 모델의 학습만 포함되어 있는 것인지 여쭤보고 싶습니다. 감사합니다.
-
미해결구현하며 배우는 Transformer
Q, K, V 초기 임베딩
안녕하십니까, 강사님.트랜스포머에 대한 세심하고 깊이 있는 강의를 준비해주셔서 감사합니다. 강의 정말 유익하게 잘 듣고 있습니다. Self-Attention의 learnable parameter 단계로 넘어가면서 몇 가지 궁금한 점이 생겨 질문드립니다.초기 token embedding은 어떤 방식으로 설정되는 것인가요?Query, Key, Value를 구하기 위해 초기 token embedding에 (3, 3) 형태의 nn.Linear를 곱하여 각각 (6, 3)으로 변환하는 과정의 의미가 궁금합니다.기존 token embedding을 그대로 사용하지 않고 이렇게 변환하는 이유가 무엇인지 알고 싶습니다.조금 더 구체적으로는, 이렇게 선형 변환을 적용하면 기존 임베딩의 의미가 무시되거나 손실되는 것은 아닌지 의문이 있습니다.