Beam-search 전략에서 joint probability를 만드는 문제 질문 드립니다.
363
작성한 질문수 13
안녕하세요.
Beam-search 전략에서 joint probability를 만드는 문제 질문 드립니다.
학습하면서 joint 확률분포를 여러 경우의 수에 대해 미리 모두 만들어놓는 개념이라고 보면 되나요?
예를들어,
"I love you so much" 를
"난 널 매우 사랑해" 로 번역할 때
I가 나왔을 때, '그는 매우' 나 '철수는 사과를' 이 나올 확률보다는 '난 널' 이라고 나올 확률이 제일 높도록 학습하는 개념인가요?
좋은 강의 감사합니다.
답변 1
1
Beam search는 현재까지의 예측을 기반으로 가능한 다음 단계의 예측을 생성하고, 각 단계에서 가장 가능성이 높은 몇 가지 예측만 유지(beam의 크기로 정의됨)하며 진행됩니다. 결국, 가장 높은 총 예측 확률을 가진 시퀀스가 선택됩니다.
Beam search는 미리 모든 가능한 경우의 수에 대한 결합 확률 분포를 만들어 놓는 개념이 아니라, 그 때그 때 주어진 상황에 따라 가장 가능성이 높은 몇 가지 예측을 선택하고 이를 바탕으로 다음 단계의 예측을 생성합니다.
예를 들어, "I love you so much"를 번역하는 경우에 'I'를 '나는' 이라고 번역한 후 가능한 다음 단어는 '널', '그는', '철수는' 등이 될 수 있습니다. Beam search는 이 단계에서 가장 확률이 높은 예측 몇 가지(beam의 크기에 따라)를 선택하고, 그 다음 단계로 넘어갑니다. 이렇게 각 단계에서 가장 가능성이 높은 예측을 선택함으로써, 최종적으로 가장 확률이 높은 전체 번역을 찾아내는 것이 목표입니다.
따라서 예를 들어 beam 크기를 3으로 하고 "난 널 매우 사랑해"가 최종 번역이 되려면, 각 단계에서 '난 널', '나는 철수를', '나는 그를' 이 선택되고 다음 단계에서 '난 널 매우', '나는 철수를 매우', '나는 그를 매우', 그 다음 단계에서 '난 널 매우 사랑해', '나는 철수를 매우 사랑해', '나는 그를 매우 사랑해' 가 각각 선택되며, 이 중 가장 전체적인 확률이 높은 첫번째 번역이 선택되는 알고리즘입니다.
좋은 질문 감사합니다.
트랜스포머 FeedForward 관련 질문
0
73
2
파라미터갯수에대한질문(030_IMDB_movie_reviews)
0
62
1
Transformer 번역기 분석 - Part1 따라치기 질문
0
72
2
Encoder-Decoder 질문 드립니다.
0
74
2
model 코드 부분을 따라하다가 전 값이 이상해서요
0
83
1
서적 추천
0
77
1
NLP와 LLM의 차이점
0
559
2
encoder-decoder model 질문입니다.
1
74
1
구글번역기에 대해서 궁금한점이 있습니다.
0
124
2
로드맵에대해서...
0
121
2
Bag of Word (BOW)와TF-IDF시 대명사인 I의행방
0
97
2
강의 교재 최신화 요청
0
145
4
self-attention에서 Wq, Wk, Wv weight matrix 학습과정 질문드립니다.
0
190
3
코랩 환경 설정할 때 질문이 있습니다.
0
248
1
transformer 훈련 마친 모델 공유 가능할까요?
0
217
2
130_Transformer.ipynb transformer.summary() 에러
0
185
2
강사님 궁금한게 있어 문의 드립니다.
0
129
1
강사님 Tensorflow 실습코드 중 궁금한 점이 있습니다.
0
126
1
패딩과 관련한 질문 드립니다.
0
172
1
Encoder Decoder 부터 Simple Chatbot까지 이상답변
0
219
1
seq2seq 모델
0
328
1
강의 내용중 질문있습니다.
0
199
1
Transformer 번역기 부분에 대해 질문 있습니다.
0
214
1
320_Custom_Sentiment_Analysis_navermovie.ipynb 실행 시 오류 납니다.
0
317
2





