Hỏi & Đáp
RPN와 앵커박스에 관련되 제가 잘 이해 하고 있는건지 확인을 위해 질문 드립니다.
저도 Faster RCNN 관련 structure 이해가 부족한 것 같아 계속 고민하고 있던 찰나에 좋은 모식도 감사드립니다. 다만 1) IOU 관련해서, IOU > 0.7인 것을 Positive (Foreground), IOU 또 Batch 단위로 학습시킬 때 Positive/Negative에서 각각 동일 sample 수만큼 추출을 해서 한 Batch 내에 50%/50% 비율을 맞춰주고요. 2) (이건 강사님께 질문) Faster RCNN 관련해서 처음에 헷갈렸던 부분이 역전파 과정에서 Classification 부분과 Regression 부분의 계산인 것 같습니다. Loss function 공식을 보면 Classification loss와 Regression loss를 합치는 것으로 되어있는데, 그러면 위 모식도에서 (3 x 3) x 512 channel 의 parameter를 갱신할 때는 (1번 anchor box의 classfication을 위한 output node 2개로부터 오는 loss) + (1번 anchor box의 regression을 위한 output node 4개로부터 오는 loss) + (2번 anchor box의 classfication을 위한 output node 2개로부터 오는 loss) + (2번 anchor box의 regression을 위한 output node 4개로부터 오는 loss) + .... (9번 anchor box의 classfication을 위한 output node 2개로부터 오는 loss) + (9번 anchor box의 regression을 위한 output node 4개로부터 오는 loss)를 loss function으로 계산한다고 보면 될지요. 즉 위 모식도의 출력층은 classification을 위한 2개 x 9 set의 node와 regression을 위한 4개 x 9 set의 node의 순서대로 정렬되어 있지만, 사실 이건 (2개 + 4개) x 9 set로 실질적으로 구성되어있는게 맞겠지요? 각각의 (2개 + 4개)의 node는 특정 centroid를 중심으로 하는 특정 사이즈의 어떤 anchor box가 들어왔을 때 이 box 내에 물체가 있는지 없는지 (2개)와 box 위치/크기를 regression 할지 (4개)로 이루어지는 거고요. 즉, 예를 들어 128 x 128 anchor box에 대한 (2개 + 4개) node로부터 오는 loss는 256 x 128 anchor box에 대한 (2개 + 4개) node와 서로 영향을 주지 않으면서 독립적으로 역전파 되어오는 것이고, 단지 (3 x 3) x 512 channel 의 parameter를 갱신하는 과정에서 loss가 합쳐진다고 이해하면 될까요? 말로 풀다보니 다소 장황해졌네요. 감사합니다.
- Lượt thích
- 1
- Số bình luận
- 5
- Lượt xem
- 778

