선생님 질문입니다!

Question

1:01의 그림을 보면서 질문드리고 있습니다! 원래 CNN을 거치면 FC layer에 가기전에 여러개의 피처맵을 Flatten 해서 맞춰주는데 지금 그림에서 Conv Network를 통과한 feature 이미지는 하나만 있다고 표현되는데 왜 그런건가요? 제 생각대로라면 Flatten이 되기전에는 여러 피처맵이 있는걸로 알고 있습니다. 그리고 이미 vggnet 을 통해서 나온 피처맵을 3*3 conv를 하는 이유를 모르겠습니다. conv를 적용하지 않고 그냥 1*1 conv를 하는 것이 나을거라 생각하는데 이해가 잘 되지 않습니다.

권 철민 · Answer

안녕하십니까, 1번 질문은 제가 잘 이해하지 못했습니다. 어디에 feature image가 하나가 있는 건지요? 해당 시간의 화면에 feature image가 하나가 있는게 어떤 부분을 의미하는지 캡쳐나 보다 자세한 설명 부탁드립니다. vgg 결과의 feature map 이후에 3x3 Conv 연산을 왜 하는지는 논문에 명확하게 기술되어 있지는 않습니다. 다만 제 개인적인 생각으로는 RPN 네트웍을 VGG 결과 Feature map에 바로 1X1 Conv를 붙이는 형식으로 만들어 버리게 되면 RPN 네트웍이 1X1으로만 구성되고, 지나치게 단순화 되어서 좋은 모델 성능을 이끌지 못한 결과가 되었기 때문이 아닌가 싶습니다. 때문에 RPN 네트웍을 3X3 으로 Conv 구성 후 1x1 으로 구성해서 좀 더 Layer와 가중치를 가지는 모델로 만드는게 보다 나은 형태가 되었기 때문일 것 같습니다. 감사합니다.