• 카테고리

    질문 & 답변
  • 세부 분야

    컴퓨터 비전

  • 해결 여부

    미해결

선생님 질문입니다!

23.04.10 19:34 작성 23.04.10 20:01 수정 조회수 341

0

1:01의 그림을 보면서 질문드리고 있습니다!

  1. 원래 CNN을 거치면 FC layer에 가기전에 여러개의 피처맵을 Flatten 해서 맞춰주는데 지금 그림에서 Conv Network를 통과한 feature 이미지는 하나만 있다고 표현되는데 왜 그런건가요?

    제 생각대로라면 Flatten이 되기전에는 여러 피처맵이 있는걸로 알고 있습니다.

  2. 그리고 이미 vggnet 을 통해서 나온 피처맵을 3*3 conv를 하는 이유를 모르겠습니다. conv를 적용하지 않고 그냥 1*1 conv를 하는 것이 나을거라 생각하는데 이해가 잘 되지 않습니다.

답변 1

답변을 작성해보세요.

0

안녕하십니까,

1번 질문은 제가 잘 이해하지 못했습니다. 어디에 feature image가 하나가 있는 건지요? 해당 시간의 화면에 feature image가 하나가 있는게 어떤 부분을 의미하는지 캡쳐나 보다 자세한 설명 부탁드립니다.

  1. vgg 결과의 feature map 이후에 3x3 Conv 연산을 왜 하는지는 논문에 명확하게 기술되어 있지는 않습니다. 다만 제 개인적인 생각으로는 RPN 네트웍을 VGG 결과 Feature map에 바로 1X1 Conv를 붙이는 형식으로 만들어 버리게 되면 RPN 네트웍이 1X1으로만 구성되고, 지나치게 단순화 되어서 좋은 모델 성능을 이끌지 못한 결과가 되었기 때문이 아닌가 싶습니다.

    때문에 RPN 네트웍을 3X3 으로 Conv 구성 후 1x1 으로 구성해서 좀 더 Layer와 가중치를 가지는 모델로 만드는게 보다 나은 형태가 되었기 때문일 것 같습니다.

감사합니다.

Alex님의 프로필

Alex

질문자

2023.04.11

스크린샷 2023-04-11 오후 5.33.00.png답변 감사합니다.

1번 질문을 다시 드리자면 여기 원안에 있는 피처는 가령 200개의 피처맵이 나왔다고 한다면 200개의 피처맵 모두에 RPN을 적용하는 건가요?

200개의 feature map이라는 표현은 사용하지 않습니다.

채널이 200개인 feature map을 의미하신것 같습니다. 보통 채널은 3차원으로 추상화하면 Depth입니다. 때문에 캡처하신 이미지 처럼 feature map이 표현된 것입니다.

Alex님의 프로필

Alex

질문자

2023.04.11

아 너무 잘 이해가 되었습니다. 감사합니다!