묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결구현하며 배우는 Transformer
멀티 헤드 셀프 어텐션에서 Wq, Wk, Wv의 구조 관련 질문
후반부 슬라이드 그림에 Wq, Wk, Wv 하나로 계산이 되어 헤드별로 나누어진다는 표현같이 보이는데, 오해의 소지가 있는것 같습니다. 만약 Wq, Wk, Wv가 멀티 헤드의 각각의 Wq, Wk, Wv가 concat된 것을 의미한다면 틀린것은 아니지만 그건 구현의 편의 문제이고 적어도 이 슬라이드에서는 Q, K, V가 하나의 Wq, Wk, Wv에서 계산이 되어 나누어진다는것은 혼란을 줄것 같습니다.
-
미해결구현하며 배우는 Transformer
MLM, NSP 구현 여부
안녕하세요 강사님.BERT 학습 파트와 관련하여 궁금한 점이 있어 질문드립니다. 현재 IMDB 데이터를 활용한 긍/부정 분류 학습 과정만 구현되어 있는 것으로 보이는데, 혹시 MLM이나 NSP를 통한 BERT의 초기 pre-training 과정은 포함되어 있지 않은 것인지 궁금합니다.제가 혹시 놓친 부분이 있다면 죄송합니다. 확인 부탁드립니다. 감사합니다.
-
미해결구현하며 배우는 Transformer
bert encoding input_ids.size(1)에 대하여
안녕하세요 강사님.BERT 관련 강의를 매우 유익하게 듣고 있습니다. Embedding 파트를 학습하던 중 궁금한 점이 생겨 질문드립니다.BERTEmbeddings 클래스 구현에서 초기화 시 max_len이 주어지는데, forward 단계에서는 input_ids.size(1)을 사용해 position embedding의 인덱스를 다시 정의하는 과정이 있습니다. 제가 이해한 바로는 이후 tokenizer에서 설정한 max_length와 실제 입력 길이가 달라질 수 있기 때문에 이러한 처리가 필요한 것으로 보였습니다. 혹시 강사님께서 강의 시 빠른 실행을 위해 tokenizer의 max_length를 모델의 max_len과 다르게 설정하셨기 때문에 해당 코드를 넣으신 것인지 궁금합니다. 일반적인 학습 환경에서는 tokenizer의 max_length와 모델의 max_len을 동일하게 맞추는 것이 자연스러울 것 같은데, 혹시 제가 놓친 부분이 있다면 설명해주시면 감사하겠습니다.
-
미해결구현하며 배우는 Transformer
트랜스포머 학습 강의
안녕하세요, 강사님.강의 잘 듣고 있습니다. 한 가지 궁금한 점이 있는데요, 트랜스포머 Seq2Seq 모델은 구현까지만 되어 있고 학습 과정에 대한 강의는 없는 것 같습니다. 혹시 BERT나 MarianMT 모델의 학습만 포함되어 있는 것인지 여쭤보고 싶습니다. 감사합니다.
-
미해결구현하며 배우는 Transformer
Q, K, V 초기 임베딩
안녕하십니까, 강사님.트랜스포머에 대한 세심하고 깊이 있는 강의를 준비해주셔서 감사합니다. 강의 정말 유익하게 잘 듣고 있습니다. Self-Attention의 learnable parameter 단계로 넘어가면서 몇 가지 궁금한 점이 생겨 질문드립니다.초기 token embedding은 어떤 방식으로 설정되는 것인가요?Query, Key, Value를 구하기 위해 초기 token embedding에 (3, 3) 형태의 nn.Linear를 곱하여 각각 (6, 3)으로 변환하는 과정의 의미가 궁금합니다.기존 token embedding을 그대로 사용하지 않고 이렇게 변환하는 이유가 무엇인지 알고 싶습니다.조금 더 구체적으로는, 이렇게 선형 변환을 적용하면 기존 임베딩의 의미가 무시되거나 손실되는 것은 아닌지 의문이 있습니다.