안녕하세요.

Question

안녕하세요.

강의 내용에 따라 CIFAR10 데이터셋을 사용하여 동일한 모델에 이리저리 바꿔가며 성능 테스트를 하고 있는 중에 궁금한 사항이 생겨 질문드립니다.

우선, 동일한 모델 (= 강의 예제 모델, lr=0.001, epochs=30, He Normal) 에 BN 적용 여부로 나눠서 train, val acc & loss 그래프를 그려봤습니다.

[ BN 미적용 ] [ BN 적용 ]

결과는 보시는바와 같이 BN 미적용한 모델이 적용한 모델보다 loss 수렴이 안정적입니다. 하지만 Test 결과는 BN 적용한 모델이 평균적으로 (3회 기준) 약 0.05 ~ 0.06 (5 ~ 6%) 정도 accuracy 값이 높게 나왔습니다. 그렇다고 한다면 train과 validation의 loss 값이 안정적으로 수렴한다고해서 무조건적으로 모델 성능이 높게 나오는건 아니라는 건가요 ?

그리고 위 BN 적용 그래프에서 loss 값이 수렴하지 않고 변동성이 심한 경우는 lr 값이 너무 커서 minima 를 찾지 못해 제대로 학습이 안되는 경우에도 비슷한 결과를 얻었습니다. 그럼 BN 적용하게 된다면 기본적으로 lr 값을 기존 값 대비 낮추는게 모델 성능 향상에 일반적으로 도움이 되나요 ?

Answer

안녕하십니까,

먼저, loss가 낮다고 무조건 정확도 성능이 좋아지지 않습니다. 물론 loss가 낮으면 예측 성능이 일반적으로 좋지만, 반드시 그렇지는 않습니다.

예측을 이미 0.9 정도로 확실하게 했지만, Gradient Descent는 불확실한 예측을 개선하려 노력도 하지만, 확실한 예측을 더 확실하게, 예를 들어 0.9->0.99 정도로 하면서 더 Loss를 줄이려고도 합니다. 때문에 loss가 낮다고 100% 예측 성능이 좋아지지는 않습니다.

잘 아시다시피, learning rate 는 일반적으로 클 수록 학습 데이터에서 수렴이 불안정적입니다. 그리고 batch normalization은 큰 learning rate에서도 상대적으로 안정적으로 수렴시키는 효과가 있습니다. 일반적으로는 학습데이터에서 loss수렴이 안정적이면 검증 데이터에서 loss수렴도 비교적 안정적이지만 반드시 그렇지 않을 수도 있습니다(결국 loss 수렴은 학습 데이터가 기준이기 때문입니다)

learning rate가 크게 좋은지, 작은게 좋은지는 일반적으로 모델 구조나 데이터에 달려 있습니다. BN을 적용할 경우 learning rate를 반드시 작게 줄 필요는 없습니다. 다만 해당 Custom 모델과 Cifar 10 모델에서는 0.001 보다 좀 더 작은 learning rate가 성능 향상 효과가 있는 것으로 보입니다.

추가적으로 kernel_initializer glot_uniform으로 변경해서도 함 테스트 해보시지요(개인적으로 저도 궁금하군요)

감사합니다.

swlee

안녕하세요.

이 글과 비슷한 Q&A

pd.Series

Feature Scaling

Transformer 번역기 부분에 대해 질문 있습니다.

CSS 적용 안되는 현상