inflearn logo
강의

講義

知識共有

実務中心のディープラーニングNLP深化:LLMアーキテクチャとファインチューニング実践

実践 - Transformer翻訳機の分析 - Part3

강사님 궁금한게 있어 문의 드립니다.

137

kimsc

投稿した質問数 71

0

강사님 seq2seq 모델의 경우 학습할 때와 추론할 때 서로 다른 모델을 정의하여 사용하였습니다. 하지만 트랜스포머는 그렇지 않고 추론할 때도 같은 모델을 사용하고 있습니다.

두 개의 모델 모두 교사강요학습을 사용하고 있고 인코더/디코더 구조를 가지고 있는데 왜 두개가 이렇게 차이가 있는 것인지요?

딥러닝 tensorflow NLP

回答 1

0

YoungJea Oh

이 차이는 두 모델의 기본 설계와 동작 방식에서 비롯됩니다.

Seq2Seq 모델의 학습단계 디코더 입력 : 인코더의 입력 + 디코더의 입력

model_teacher_forcing = Model([encoder_inputs_, decoder_inputs_], decoder_outputs)

Seq2Seq 모델의 추론용 디코더 입력 : 디코더의 입력 + 디코더의 state

decoder_model = Model(

[decoder_inputs_single] + decoder_states_inputs, # 디코더 입력과 상태를 입력으로 받음

[decoder_outputs] + decoder_states ) # 디코더 출력과 상태를 출력으로 반환
입력이 달라지므로 모델을 달리 할 수 밖에 없습니다. 물론 학습한 가중치는 교사 학습에서 만들어진 가중치를 그대로 사용하므로 추론 단계의 디코더는 새로 만드는 것이 아니라 입력 구조만 변경해서 그냥 사용하는 것입니다.

트랜스포머 모델도 Seq2Seq와 마찬가지로 학습 시 디코더에 실제 타겟 시퀀스를 입력으로 사용합니다. 그러나 트랜스포머는 학습과 추론 시 같은 네트워크 구조를 사용할 수 있으므로 별도의 디코더 모델을 만들 필요가 없습니다.
결론적으로 이 것은 RNN 과 Transformer 의 구조 차이에서 오는 것이므로 더 자세한 내용은 080_language_translation_KerasAPI_teacherForcing 프로그램 소스와 130_transformer 프로그램 소스를 비교해 보시기 바랍니다. 단순히 RNN 과 Transformer 의 구조 차이 외에 더 특별한 의미가 존재하는 것은 아닙니다.
좋은 질문 감사합니다.

트랜스포머 FeedForward 관련 질문

0

102

2

파라미터갯수에대한질문(030_IMDB_movie_reviews)

0

67

1

Transformer 번역기 분석 - Part1 따라치기 질문

0

78

2

Encoder-Decoder 질문 드립니다.

0

81

2

model 코드 부분을 따라하다가 전 값이 이상해서요

0

94

1

서적 추천

0

84

1

NLP와 LLM의 차이점

0

572

2

encoder-decoder model 질문입니다.

1

81

1

구글번역기에 대해서 궁금한점이 있습니다.

0

134

2

로드맵에대해서...

0

125

2

Bag of Word (BOW)와TF-IDF시 대명사인 I의행방

0

104

2

강의 교재 최신화 요청

0

148

4

self-attention에서 Wq, Wk, Wv weight matrix 학습과정 질문드립니다.

0

203

3

코랩 환경 설정할 때 질문이 있습니다.

0

257

1

transformer 훈련 마친 모델 공유 가능할까요?

0

220

2

130_Transformer.ipynb transformer.summary() 에러

0

190

2

강사님 Tensorflow 실습코드 중 궁금한 점이 있습니다.

0

131

1

패딩과 관련한 질문 드립니다.

0

175

1

Encoder Decoder 부터 Simple Chatbot까지 이상답변

0

225

1

seq2seq 모델

0

333

1

강의 내용중 질문있습니다.

0

204

1

Transformer 번역기 부분에 대해 질문 있습니다.

0

219

1

320_Custom_Sentiment_Analysis_navermovie.ipynb 실행 시 오류 납니다.

0

328

2

201_classify_text_with_bert_tfhub_Kor.ipynb 오류

0

357

2