트랜스포머 feed forward network 보다가 질문드립니다.
445
작성한 질문수 13
제가 아직 word embedding 이 NN으로 들어갈 때 어떻게 학습하는지 개념이 헷갈리는것 같습니다. 먼저 기초적인 질문이라 죄송합니다 ^^;;
교재에서 Position-wise Feed Forward NN는 단어별로 별도로 적용된다고 설명해주셨는데요!
예를 들어, 강의 교재의 10(=seq_len=단어의 갯수) x 512(=d model) 이 dff가 2048인 Position-wise Feed Forward NN에 input으로 들어오면,
첫번째 단어(1x512 vector)가 feed forward nn에 들어와서 학습 후 동일한 nn에 두번째 단어(1x512 vector)가 들어와서 학습
...
열번째 단어도 동일한 과정으로 feed forward nn이 학습되는 개념이라고 이해하면 될까요?
항상 상세한 답변에 감사드립니다.
답변 1
1
네, 맞습니다. 트랜스포머에서 포지션-와이즈 피드-포워드 네트워크는 각 위치의 단어(또는 토큰)를 독립적으로 처리합니다. 이는 입력 시퀀스의 각 포지션(단어 또는 토큰)에 대해 독립적으로 적용되는 것이기 때문에 "Position-wise"라는 이름이 붙었습니다.
즉, 각 단어(또는 토큰)는 동일한 피드-포워드 네트워크를 거치며, 첫 번째 단어가 네트워크를 거친 후, 동일한 네트워크를 통해 두 번째 단어가 처리되고, 이 과정이 시퀀스의 모든 단어에 대해 반복됩니다.
트랜스포머 FeedForward 관련 질문
0
69
2
파라미터갯수에대한질문(030_IMDB_movie_reviews)
0
60
1
Transformer 번역기 분석 - Part1 따라치기 질문
0
69
2
Encoder-Decoder 질문 드립니다.
0
71
2
model 코드 부분을 따라하다가 전 값이 이상해서요
0
83
1
서적 추천
0
75
1
NLP와 LLM의 차이점
0
550
2
encoder-decoder model 질문입니다.
1
73
1
구글번역기에 대해서 궁금한점이 있습니다.
0
122
2
로드맵에대해서...
0
119
2
Bag of Word (BOW)와TF-IDF시 대명사인 I의행방
0
94
2
강의 교재 최신화 요청
0
142
4
self-attention에서 Wq, Wk, Wv weight matrix 학습과정 질문드립니다.
0
189
3
코랩 환경 설정할 때 질문이 있습니다.
0
248
1
transformer 훈련 마친 모델 공유 가능할까요?
0
216
2
130_Transformer.ipynb transformer.summary() 에러
0
182
2
강사님 궁금한게 있어 문의 드립니다.
0
128
1
강사님 Tensorflow 실습코드 중 궁금한 점이 있습니다.
0
124
1
패딩과 관련한 질문 드립니다.
0
171
1
Encoder Decoder 부터 Simple Chatbot까지 이상답변
0
218
1
seq2seq 모델
0
323
1
강의 내용중 질문있습니다.
0
197
1
Transformer 번역기 부분에 대해 질문 있습니다.
0
212
1
320_Custom_Sentiment_Analysis_navermovie.ipynb 실행 시 오류 납니다.
0
314
2





