질문있습니다.

Question

H(x) = F(x) + x 에서 x가 이미 학습된 feature map이잖아요??

그럼 H(x)에 이미 최적으로 학습된 모델이란 말이고, 그 최적에 학습된 모델에 F(x)모델을 더해서 층을 늘려가니 F(x)모델이 0에 가깝게 학습하면서, 결과가 좋게 나왔다.. 라고 해석을 했는데 맞나요?

머신러닝, 딥러닝, CNN 모든 강의 다 듣고 다시 정주행 하면서 정리중입니다. 영양가 높은강의 감사합니다 ^_^

Answer

안녕하십니까,

잘듣고 계시다니, 저도 기분이 좋군요.

x가 이미 학습된 feature map은 아닙니다. 학습을 진행해야 할 feature map이자 입력값입니다.

일반적인 layer기반으로 계속 계층을 늘려가는데 한계점이 봉착하기에, 기존과는 완전히 다른 identity block 개념을 떠올리게 됩니다. 그러니까 층을 입력과 출력이 동일한 identity를 계속 연결하면 최소한 성능이 저하 되지는 않는다는 기본 개념을 가지면서 이를 발전시킨게 identity block입니다.

완전히 identity한 layer는 전혀 학습을 할 수가 없으므로 identity를 지향하는 방향성으로 network 설계를 하게되고, 이를 위해 residual 방식으로 layer를 구성합니다. 이 때 사용되는 최적식을 F(x) = H(x)-x로 정의해서 H(x)와 x가 거의 동일하게 유도하면서 F(x)를 0으로 학습할 수 있도록 weight를 최적 구성하는것이 Resnet의 주요 사상입니다.

bbcc8417

질문있습니다.

이 글과 비슷한 Q&A

주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문

CRUD에서 CR만 배우는건가요

tiny kitti 데이터로 MMDectection Train 실습에서 클래스 id 질문

Section14 관련 질문요청드립니다.