학습과정 질문

Question

학습과정 질문드립니다. selective search에 의해 proposal된 영역이 feature map에 projection되는데 이때 여러개의 object들이 projection될테고 각각의 object들이 roi pooling 후 하나의 FC Layer로 합쳐진 뒤 분류과정이 진행되는 건가요? 제 생각에는 뭔가 각각의 region별로 softmax를 통과해야 classification이 될 것 같은데요. 만약 region별로 pooling된 featuremap이 하나의 FC layer로 합쳐진다면 어떠한 과정으로 softmax를 통한 분류가 될 수 있는 건지 문의드립니다.

dooleyz3525 · Answer

다시 생각해보니 여러개의 ROI를 하나의 FC layer로 연결 하고 class * roi 개수 만큼의 dense layer로 연결하고 softmax를 통과시키면 될 것 같은데 맞을까요? => ROI를 FC Layer로 연결하는게 조~끔 어렵습니다. ROI를 통과하면 배치 사이즈를 포함해서 5차원이 만들어 지게 됩니다. 보통은 배치사이즈를 포함해서 4차원이 만들어 지는데, 개별 ROI 차원까지 포함이 되어서 5차원이 됩니다. 이를 Dense로 연결하는 방법은 TimeDistributed Dense layer를 적용하는 기법을 사용합니다. TimeDistributed layer는 주로 LSTM에서 사용하는데, 개별 ROI별로 따로 따로 Dense를 연결하는 방식입니다. 이렇게 TimeDistributed layer를 사용하면 모든 Dense layer에 대해서 ROI별로 연결되며 softmax를 적용할 수 있습니다. 감사합니다.

pcjin0707 · Answer

다시 생각해보니 여러개의 ROI를 하나의 FC layer로 연결 하고 class * roi 개수 만큼의 dense layer로 연결하고 softmax를 통과시키면 될 것 같은데 맞을까요?