encoder-decoder model 질문입니다.
73
投稿した質問数 21
안녕하세요 교수님.
챗봇 부분 공부하다가 질문이 생겨서 남깁니다.
기존 teacher forcing 학습 방식을 위해 encoder와 decoder를 포함한 모델을 따로 만들고, 이후에 decoder 모델을 다시 만든 다는 것으로 이해했습니다.
하지만, 맨 마지막 모델인 decoder에서 output에 decoder context vector도(h, c) 같이 포함되는지 궁금합니다. (왜 Dense layer를 통과한 output과 context vector를 합치는지 이해가 잘 안갑니다.)
감사합니다.
decoder_input_h = Input(shape=(LATENT_DIMS, ), name='DECODER_INPUT_H') # hidden
decoder_input_c = Input(shape=(LATENT_DIMS, ), name='DECODER_INPUT_C') # cell
decoder_input_s = Input(shape=(1, ), name='DECODER_INPUT_S') # single
# context_vector(encoding에서 나온 값)
context_vector = [decoder_input_h, decoder_input_c]
x = decoder_embedding_layer(decoder_input_s)
x, h, c = decoder_lstm_layer(x, initial_state=context_vector)
decoder_output = decoder_dense_layer(x)
decoder_context_vector = [h, c]
final_decoder_model = Model(inputs=[decoder_input_s, context_vector], outputs=[decoder_output, decoder_context_vector])
final_decoder_model.summary()
回答 1
1
decoder의 출력에 context vector (h, c)를 포함하는 이유는,
추론 단계에서 다음 시점의 LSTM 상태로 전달하기 위해서입니다.
Dense layer는 예측 토큰을 생성하는 데 사용되고, (h, c)는 다음 시점의 decoder 상태 유지를 위한 것이므로 두 출력을 "합치는" 게 아니라 목적이 달라서 함께 출력하는 것입니다.
왜냐하면 LSTM 은 장, 단기 기억 장소 두가지를 초기값으로 필요로 하기 때문입니다.
좋은 질문 감사합니다.
트랜스포머 FeedForward 관련 질문
0
69
2
파라미터갯수에대한질문(030_IMDB_movie_reviews)
0
60
1
Transformer 번역기 분석 - Part1 따라치기 질문
0
69
2
Encoder-Decoder 질문 드립니다.
0
71
2
model 코드 부분을 따라하다가 전 값이 이상해서요
0
83
1
서적 추천
0
75
1
NLP와 LLM의 차이점
0
550
2
구글번역기에 대해서 궁금한점이 있습니다.
0
122
2
로드맵에대해서...
0
119
2
Bag of Word (BOW)와TF-IDF시 대명사인 I의행방
0
94
2
강의 교재 최신화 요청
0
142
4
self-attention에서 Wq, Wk, Wv weight matrix 학습과정 질문드립니다.
0
189
3
코랩 환경 설정할 때 질문이 있습니다.
0
248
1
transformer 훈련 마친 모델 공유 가능할까요?
0
216
2
130_Transformer.ipynb transformer.summary() 에러
0
182
2
강사님 궁금한게 있어 문의 드립니다.
0
128
1
강사님 Tensorflow 실습코드 중 궁금한 점이 있습니다.
0
124
1
패딩과 관련한 질문 드립니다.
0
171
1
Encoder Decoder 부터 Simple Chatbot까지 이상답변
0
218
1
seq2seq 모델
0
323
1
강의 내용중 질문있습니다.
0
197
1
Transformer 번역기 부분에 대해 질문 있습니다.
0
212
1
320_Custom_Sentiment_Analysis_navermovie.ipynb 실행 시 오류 납니다.
0
314
2
201_classify_text_with_bert_tfhub_Kor.ipynb 오류
0
342
2

