inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

딥러닝 이론 + PyTorch 실무 완전 정복

[이론] Transformer의 Encoder

Section 16 [이론] Transformer의 Encoder 질문

해결된 질문

177

A+Plus

작성한 질문수 13

1

안녕하세요, 강의 감사드립니다.

multi-head attention에서 Q,K,V 차원에 대해 질문드립니다.

1. 여기서 H는 multi-head 시킨 후 (concatnation 후)의 최종 feature 차원을 의미하는지 궁금합니다. (단일 self-attention에서도 Q,K,V에서 H와 다른거 같은데 확인부탁드립니다)

2. 만약, 1이 맞다면 Q,K,V의 차원은 N x H/M 이 되어야 하는건 아닌가 싶습니다. (m은 M을 표현하기 위한 index로 보이기 때문입니다)

혹시 제가 잘못 이해하고 있는 부분이 있다면, 정정해주시면 감사드리겠습니다!

딥러닝 pytorch NLP 컴퓨터-비전 cnn rnn transformer llm

답변 1

1

변정현

안녕하세요 변정현입니다!

(96번째 슬라이드 참조)

imageH는 기존의 attention의 query Q, key K, value V vector의 차원에 해당됩니다!

(113번째 슬라이드 참조)

image그리고 M은 Multi-head attention의 Head의 개수입니다!

참고로, Multi-head을 사용할때, 저희는 각 Head에 해당되는 query, key, value vector들의 크기는 H/M으로 설정하게 됩니다. 그 이유는 다음과 같습니다.

  • Multi-head attention에서는 각 head가 output vector O_m을 하나씩 출력하게 됩니다.

  • 따라서 M개의 output vector O_m을 구하게됩니다.

  • 저희는 M개의 output vector들을 하나의 vector로 concatenation해서 최종 output vector인 O을 구하게 됩니다.

  • 하지만, Q, K, V의 차원의 크기를 H로 그대로 사용하게 되면 concatenation된 최종 output vector O의 크기는 M*H가 됩니다.

  • 그리고 Layer을 거듭할수록 M*H, M*M*H 이렇게 늘어나게 됩니다.

  • 따라서 최종 출력되는 O의 크기가 일정하게 유지하기 위해서 각 head의 Q, K, V의 차원 크기를 H/M으로 설정하는 것입니다!

노션URL 이동문제

0

56

1

섹션12 실습코드 의 initialization 각각 적용 코드 문의

0

97

0

오타

0

82

0

혹시 이론강의 자료도 공유가 가능하실까요?

1

166

1

[sec. 2-8 실습] 배치사이즈의 선택

0

171

2

[section 14 / [실습] 직접 만든 CNN 모델과 ResNet, VGGNet을 활용한 CV 프로젝트] transforms.Normalize 질문

1

226

1

[section 14 / VGGNet ] receptive filed 질문

1

131

2

[섹션3, PyTorch로 구현해보는 Loss Function] 분류task loss함수 질문입니다.

1

232

2

KL Div Loss에서 Negative Entropy를 더해주는 의미에 대해서

1

193

2

GoogleNet Inception 모듈

1

166

2

Batch Normalization 효과

1

183

2

Layer Norm이 언어모델에 적합한 이유

1

520

1

9-2 fully connected NN

1

129

1

Mini-batch Gradient Descent computation time 질문

1

175

2

Huber Loss에 대한 질문

1

303

2

Batch size 가 극단적으로 작은 경우 (예를들어 batch_size =1) Normalization 적용 방안

3

351

1

Normalization 질문

1

270

2

Section 7 [Activation Function의 종류] Softmax logit 분포와 Entropy 질문이 있습니다

2

210

1

Section 3 [실습] PyTorch로 구현해보는 Loss Function의 Cross Entropy 구현 관련하여 질문이 있습니다.

1

299

1

Section 3의 [이론] Regression task의 Loss: L1, L2, Huber, Log Cosh Loss "미분가능"관련 에서 질문이 있습니다.

1

280

1

Section 15 실습 중, lstm 클래스의 forward 함수 질문

1

236

2

Auto Differentiation에서 computational Graph 질문있습니다

1

212

1

Section 3 이론 classification Loss function 질문

1

235

1

section4의 entropy 시그마 식 전개에 대한 질문입니다.

1

265

2