Layer Norm이 언어모델에 적합한 이유
안녕하세요 선생님
강의 정말 잘 보고 있습니다.
Layer Normalization을 보는 중에 입력 데이터를 Normalization하는 것을 통해 scale이나 shift에 robust하게 되는 것까진 이해했습니다.
이런 효과가 왜 이미지보다 언어 모델에 더욱 효과적인지 이유를 알 수 있을까요?
回答 1
1
안녕하세요 좋은 질문 감사합니다!
여러 이유가 있지만 Batch Norm 대신에 Layer Norm을 NLP나 Sequence 데이터셋 모델링에서 사용하는 가장 큰 이유는 Batch Norm은 Batch을 묶어서 평균을 내는데 NLP에서는 문장의 길이가 가변적이기 때문입니다.
따라서 평균 혹은 표준편차를 계산할때, 분모로 나눠줘야 하는 N을 mini-batch을 구성하는 문장들 중에서 어떤 문장의 길이를 기준으로 설정할 것인가가 명확하지 않습니다.
부연 설명 드리자면, Normalization을 하기 위해서 평균 = sum(x_i) / N, 표준편차 = sqrt ( sum(x_i - 평균)^2 / N )에 대한 계산이 필요한데, Batch-Norm을 Mini-Batch을 통틀어서 평균과 표준편차를 계산합니다.
따라서 길이가 가장 긴 문장의 길이를 N으로 둬서 평균과 표준편차를 계산한다고 가정하면, 동일한 데이터 샘플에 대해서도 해당 데이터 샘플이 속해있는 mini-batch에서 가장 긴 문장의 길이 N이 다르면 계산되는 평균과 표준편차 값도 달라지는 문제가 있습니다.
하지만 Layer Norm은 각 데이터 샘플에 대해서 개별적으로 평균과 표준편차가 계산되므로 해당 문제를 겪지 않게 되는 셈입니다.
글로 이해하는데 헷갈릴 수 있으므로, 첨부한 이미지도 참고부탁드립니다!

노션URL 이동문제
0
56
1
섹션12 실습코드 의 initialization 각각 적용 코드 문의
0
97
0
오타
0
82
0
혹시 이론강의 자료도 공유가 가능하실까요?
1
166
1
[sec. 2-8 실습] 배치사이즈의 선택
0
171
2
[section 14 / [실습] 직접 만든 CNN 모델과 ResNet, VGGNet을 활용한 CV 프로젝트] transforms.Normalize 질문
1
226
1
[section 14 / VGGNet ] receptive filed 질문
1
131
2
[섹션3, PyTorch로 구현해보는 Loss Function] 분류task loss함수 질문입니다.
1
233
2
KL Div Loss에서 Negative Entropy를 더해주는 의미에 대해서
1
193
2
GoogleNet Inception 모듈
1
166
2
Batch Normalization 효과
1
183
2
9-2 fully connected NN
1
129
1
Mini-batch Gradient Descent computation time 질문
1
175
2
Huber Loss에 대한 질문
1
303
2
Batch size 가 극단적으로 작은 경우 (예를들어 batch_size =1) Normalization 적용 방안
3
353
1
Normalization 질문
1
270
2
Section 7 [Activation Function의 종류] Softmax logit 분포와 Entropy 질문이 있습니다
2
210
1
Section 3 [실습] PyTorch로 구현해보는 Loss Function의 Cross Entropy 구현 관련하여 질문이 있습니다.
1
300
1
Section 3의 [이론] Regression task의 Loss: L1, L2, Huber, Log Cosh Loss "미분가능"관련 에서 질문이 있습니다.
1
280
1
Section 15 실습 중, lstm 클래스의 forward 함수 질문
1
236
2
Section 16 [이론] Transformer의 Encoder 질문
1
177
1
Auto Differentiation에서 computational Graph 질문있습니다
1
212
1
Section 3 이론 classification Loss function 질문
1
235
1
section4의 entropy 시그마 식 전개에 대한 질문입니다.
1
266
2

