-
카테고리
-
세부 분야
자연어 처리
-
해결 여부
미해결
트랜스포머 feed forward network 보다가 질문드립니다.
23.08.04 17:01 작성 23.08.04 17:03 수정 조회수 264
0
제가 아직 word embedding 이 NN으로 들어갈 때 어떻게 학습하는지 개념이 헷갈리는것 같습니다. 먼저 기초적인 질문이라 죄송합니다 ^^;;
교재에서 Position-wise Feed Forward NN는 단어별로 별도로 적용된다고 설명해주셨는데요!
예를 들어, 강의 교재의 10(=seq_len=단어의 갯수) x 512(=d model) 이 dff가 2048인 Position-wise Feed Forward NN에 input으로 들어오면,
첫번째 단어(1x512 vector)가 feed forward nn에 들어와서 학습 후 동일한 nn에 두번째 단어(1x512 vector)가 들어와서 학습
...
열번째 단어도 동일한 과정으로 feed forward nn이 학습되는 개념이라고 이해하면 될까요?
항상 상세한 답변에 감사드립니다.
딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
실습 - Transformer 번역기 code 분석 (Old Code) - Optional
강의실 바로가기
답변을 작성해보세요.
1
YoungJea Oh
지식공유자2023.08.05
네, 맞습니다. 트랜스포머에서 포지션-와이즈 피드-포워드 네트워크는 각 위치의 단어(또는 토큰)를 독립적으로 처리합니다. 이는 입력 시퀀스의 각 포지션(단어 또는 토큰)에 대해 독립적으로 적용되는 것이기 때문에 "Position-wise"라는 이름이 붙었습니다.
즉, 각 단어(또는 토큰)는 동일한 피드-포워드 네트워크를 거치며, 첫 번째 단어가 네트워크를 거친 후, 동일한 네트워크를 통해 두 번째 단어가 처리되고, 이 과정이 시퀀스의 모든 단어에 대해 반복됩니다.
답변 1