inflearn logo
강의

講義

知識共有

例として学ぶディープラーニング自然言語処理入門 NLP with TensorFlow - RNNからBERTまで

トランスフォーマーモデル紹介 - Attention is All You Need

가중치에 대한 질문

107

Alex

投稿した質問数 69

0

안녕하세요 질문이 있습니다.

Multi-Hed Attention 에서 여러개의 Q,K,V 벡터들을 학습시켜 Concat 시키는데

1. 이 경우에는 어떤식으로 Concat이 되나요?

  1. 이렇게 Concat이 되게되면 값이 증폭하는 일이 생기지 않나요>?

딥러닝 tensorflow NLP

回答 1

0

AISchool

안녕하세요~. 반갑습니다.

1. 이 경우에는 어떤식으로 Concat이 되나요?

-> 말그대로 각 scale-dot attention에서 출력된 벡터를 그냥 이어주는 concatenation 과정이 이루어지는 것입니다. 예를 들어 설명하면 아래와 같이 head1의 출력값과 head2의 출력값이 있다고 임의 가정하면 각 헤드들의 출력값을 그냥 하나로 길게 쭉이어주는 것입니다. (실제로 원 논문에서는 8개의 헤드를 사용합니다.)

  • head 1: [1, 2, 3]

  • head 2: [13, 14, 15]

  • concat → [1, 2, 3, 13, 14, 15]

    2. 이렇게 Concat이 되게되면 값이 증폭하는 일이 생기지 않나요>?

     

    -> 값이 증폭한다는게 무슨 뜻인지 정확히 이해하지 못했지만 2개의 값을 더해줘서 값이 +되는 것 아니냐는 의미로 질문하신것이라면 위에 설명드린것처럼 값을 +하는 것이 아니라 뒤에 이어붙이는 것이기 때문에 값의 증폭이 이루어진다고 볼수는 없습니다. 또한 복잡한 transformer 구조에서 모든 부분이 학습가능한 weight이기 때문에 값이 너무 커질것 같으면 학습과정에서 weight들이 알아서 너무 값이 커지지 않게 조정하는 방향으로 파라미터를 변경합니다.



    좋은 하루되세요~.

     

    감사합니다.

     

import torch가 안되는 경우는 어떻게 하나요?

0

16

1

소리가 겹쳐서 들려요

0

21

2

transformer 기계번역 강의 오류 질문

0

155

2

seq2seq를_이용한_NMT.ipynb 실습코드 에러 문의사항입니다.

0

254

2

실습 2 - Char-RNN 코드 학습 부분에서 오류가 발생합니다.

0

277

2

pad_both_ends 사용할 때 n은 왜 사용하나요?

1

206

2

트레이닝 에러 발생

0

335

2

트랜스포머 인코더 레이어 테스트 에러

0

219

1

9강 BERT 실습 예제 코드

0

465

1

Bert 관련 문의

0

336

2

코랩에서 실행이 안됩니다

0

1126

1

bert를 이용해서 ocr 시스템을 만들려면 어떻게 해야 할까요 ?

0

787

1

소스코드 실행 시 에러

0

565

2

N-gram_example

1

808

1

BERT를 이용한 텍스트 분류에서 다중분류라면 어떻게 해야할까요?

1

1524

1

개인 깃허브 소스코드 업로드 가능할까요?

0

331

1

#@title Choose a BERT model to fine-tune

0

370

1

nltk모듈 MLE의 score메서드 계산 질문드립니다.

0

202

0

bert 파인튜닝 코드 질문

0

397

0

네이버 영화리뷰 파인튜닝 질문드려요

0

306

1

코드 실행 오류

0

316

1

bert를 이용한 텍스트 분류 imdb 편 질문드립니다.

0

355

1

안녕하세요. 강의 잘듣고있습니다!

0

278

1

강의 자료는 어디있나요(자연어 처리)

0

333

1