inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

실무 중심의 딥러닝 NLP 심화: LLM 아키텍처와 파인튜닝 실전

Decoder Overview

Decoder 의 Output Probablilities 계산하는 부분 RNN과 관련하여 질문드립니다.

288

David

작성한 질문수 13

0

RNN Decoder의 경우, time step 별로 해당 input 단어에 대한 vocab 사전의 확률분포가 나오면, argmax 하거나, beam searching 하여 output을 최종 산출한다는 것으로 이해했었습니다.

강의에서 트랜스포머 Decoder의 경우도 개념은 똑같다고 하셨는데, 트랜스포머도 time step 이 있는건가요?

예를들어,

'I love you' 를 '난 널 사랑해' 로 번역할 때,

decoder에 attention계산과정 및 Feed Forward 계산과정을 거쳐 나온 최종 attetion vector (seq_len x d model 차원) 가 첫번째 단어 '난' 부터 시작해서 greedy 하게, 혹은 beam search 전략 통하여 확률분포를 구한다고 보면 될까요?

딥러닝 tensorflow NLP

답변 1

1

YoungJea Oh

트랜스포머 모델은 원래는 시퀀스의 전체를 한 번에 처리하는 모델이므로 기술적으로는 'time-step'이라는 개념이 없습니다. 즉, RNN처럼 순차적으로 정보를 처리하지 않고, 입력 시퀀스의 모든 단어를 동시에 처리합니다. 이는 트랜스포머 모델이 모든 입력 단어들 사이의 관계를 동시에 학습할 수 있게 하므로, 복잡한 문맥적 관계를 파악하는데 유리합니다.

그러나 이러한 방식은 트레이닝 단계에서는 잘 작동하지만, 테스트(또는 추론) 단계에서는 문제가 될 수 있습니다. 왜냐하면 테스트 단계에서는 아직 생성되지 않은 미래의 단어들을 참조할 수 없기 때문입니다. 이 문제를 해결하기 위해, 테스트 단계에서는 디코더가 이전에 생성된 단어들만 참조하도록 'auto-regressive' 방식을 사용합니다. 즉, 첫 번째 단어를 생성한 후, 이를 디코더의 입력으로 다시 사용하여 두 번째 단어를 생성하고, 이 과정을 반복합니다. 이 방식은 실제로는 'time-step'이 있는 것과 유사하게 작동합니다.

따라서 트랜스포머의 디코더에서도 RNN과 유사하게, 각 단계에서 vocab 사전에 대한 확률 분포가 출력되고, 이를 기반으로 최선의 단어(예: argmax나 beam search를 사용)를 선택합니다. 디코더는 이 단어를 다음 단계의 입력으로 사용하고, 이 과정을 시퀀스의 끝에 도달할 때까지 반복합니다. 이렇게 생성된 단어 시퀀스가 최종 번역 결과입니다.

좋은 질문 감사합니다.

트랜스포머 FeedForward 관련 질문

0

73

2

파라미터갯수에대한질문(030_IMDB_movie_reviews)

0

62

1

Transformer 번역기 분석 - Part1 따라치기 질문

0

72

2

Encoder-Decoder 질문 드립니다.

0

74

2

model 코드 부분을 따라하다가 전 값이 이상해서요

0

83

1

서적 추천

0

77

1

NLP와 LLM의 차이점

0

559

2

encoder-decoder model 질문입니다.

1

74

1

구글번역기에 대해서 궁금한점이 있습니다.

0

124

2

로드맵에대해서...

0

121

2

Bag of Word (BOW)와TF-IDF시 대명사인 I의행방

0

97

2

강의 교재 최신화 요청

0

145

4

self-attention에서 Wq, Wk, Wv weight matrix 학습과정 질문드립니다.

0

190

3

코랩 환경 설정할 때 질문이 있습니다.

0

248

1

transformer 훈련 마친 모델 공유 가능할까요?

0

217

2

130_Transformer.ipynb transformer.summary() 에러

0

185

2

강사님 궁금한게 있어 문의 드립니다.

0

129

1

강사님 Tensorflow 실습코드 중 궁금한 점이 있습니다.

0

126

1

패딩과 관련한 질문 드립니다.

0

172

1

Encoder Decoder 부터 Simple Chatbot까지 이상답변

0

219

1

seq2seq 모델

0

328

1

강의 내용중 질문있습니다.

0

199

1

Transformer 번역기 부분에 대해 질문 있습니다.

0

214

1

320_Custom_Sentiment_Analysis_navermovie.ipynb 실행 시 오류 납니다.

0

317

2