inflearn logo
강의

講義

知識共有

実務中心のディープラーニングNLP深化:LLMアーキテクチャとファインチューニング実践

実践 - 簡単なチャットボットを作ってみよう

encoder-decoder model 질문입니다.

73

jcy4023

投稿した質問数 21

1

안녕하세요 교수님.
챗봇 부분 공부하다가 질문이 생겨서 남깁니다.

기존 teacher forcing 학습 방식을 위해 encoder와 decoder를 포함한 모델을 따로 만들고, 이후에 decoder 모델을 다시 만든 다는 것으로 이해했습니다.

하지만, 맨 마지막 모델인 decoder에서 output에 decoder context vector도(h, c) 같이 포함되는지 궁금합니다. (왜 Dense layer를 통과한 output과 context vector를 합치는지 이해가 잘 안갑니다.)

감사합니다.

 

decoder_input_h = Input(shape=(LATENT_DIMS, ), name='DECODER_INPUT_H') # hidden
decoder_input_c = Input(shape=(LATENT_DIMS, ), name='DECODER_INPUT_C') # cell
decoder_input_s = Input(shape=(1, ), name='DECODER_INPUT_S') # single

# context_vector(encoding에서 나온 값)
context_vector = [decoder_input_h, decoder_input_c]

x = decoder_embedding_layer(decoder_input_s)

x, h, c = decoder_lstm_layer(x, initial_state=context_vector)

decoder_output = decoder_dense_layer(x)

decoder_context_vector = [h, c]

final_decoder_model = Model(inputs=[decoder_input_s, context_vector], outputs=[decoder_output, decoder_context_vector])

final_decoder_model.summary()

딥러닝 tensorflow NLP

回答 1

1

YoungJea Oh

decoder의 출력에 context vector (h, c)를 포함하는 이유는,
추론 단계에서 다음 시점의 LSTM 상태로 전달하기 위해서입니다.

Dense layer는 예측 토큰을 생성하는 데 사용되고, (h, c)는 다음 시점의 decoder 상태 유지를 위한 것이므로 두 출력을 "합치는" 게 아니라 목적이 달라서 함께 출력하는 것입니다.

왜냐하면 LSTM 은 장, 단기 기억 장소 두가지를 초기값으로 필요로 하기 때문입니다.

좋은 질문 감사합니다.

0

jcy4023

감사합니다.

 

트랜스포머 FeedForward 관련 질문

0

69

2

파라미터갯수에대한질문(030_IMDB_movie_reviews)

0

60

1

Transformer 번역기 분석 - Part1 따라치기 질문

0

69

2

Encoder-Decoder 질문 드립니다.

0

71

2

model 코드 부분을 따라하다가 전 값이 이상해서요

0

83

1

서적 추천

0

75

1

NLP와 LLM의 차이점

0

550

2

구글번역기에 대해서 궁금한점이 있습니다.

0

122

2

로드맵에대해서...

0

119

2

Bag of Word (BOW)와TF-IDF시 대명사인 I의행방

0

94

2

강의 교재 최신화 요청

0

142

4

self-attention에서 Wq, Wk, Wv weight matrix 학습과정 질문드립니다.

0

189

3

코랩 환경 설정할 때 질문이 있습니다.

0

248

1

transformer 훈련 마친 모델 공유 가능할까요?

0

216

2

130_Transformer.ipynb transformer.summary() 에러

0

182

2

강사님 궁금한게 있어 문의 드립니다.

0

128

1

강사님 Tensorflow 실습코드 중 궁금한 점이 있습니다.

0

124

1

패딩과 관련한 질문 드립니다.

0

171

1

Encoder Decoder 부터 Simple Chatbot까지 이상답변

0

218

1

seq2seq 모델

0

323

1

강의 내용중 질문있습니다.

0

197

1

Transformer 번역기 부분에 대해 질문 있습니다.

0

212

1

320_Custom_Sentiment_Analysis_navermovie.ipynb 실행 시 오류 납니다.

0

314

2

201_classify_text_with_bert_tfhub_Kor.ipynb 오류

0

342

2