YOLO-V3 모델에서 Feature Map과 이미지 사이즈 관계 질문입니다.

Question

YOLO-V3 모델 설명하실 때 위 사진자료를 토대도 "상대적으로 큰 사이즈의 이미지의 같은 경우 (13, 13) 그리드를 적용한 Feature Map에서 잘 Detection을 하고 작은 사이즈의 이미지는 반대로 (52, 52) 그리드를 적용한 Feature Map에서 잘 Detection 한다" 라고 하셨습니다! 이 때, 이미지 사이즈가 클 때 잘 탐지하고 작을 때 잘 탐지하는 기준이 Feature Map에 따라 다른 건가요? 아니면 그리드 사이즈에 따라 다른건가요? 예를 들어, 위 예시에서 (52, 52) 그리드이기 때문에 작은 사이즈의 이미지를 잘 탐지하는 건가요? 아니면 (52, 52) 그리드에 매핑되는 Feature Map이 모델 아키텍처에서 후반부 컨볼루션을 통과한 후 나온 Feature Map이라서 그런건가요? 제가 저번에 배우기론.. 모델에서 후반부 컨볼루션을 통과한 Feature Map일수록 이미지 내에서 주요 오브젝트를 나타내는 특징 픽셀들만이 남는다고 알고 있는데 이 사실은 이미지 내부의 문제이지 이미지 자체 사이즈랑은 관련이 없는 거죠..?

권 철민 · Answer

안녕하십니까, 1. 이 때, 이미지 사이즈가 클 때 잘 탐지하고 작을 때 잘 탐지하는 기준이 Feature Map에 따라 다른 건가요? 아니면 그리드 사이즈에 따라 다른건가요? => 강의 설명상 Feature map과 그리드 사이즈는 비슷한 의미 입니다. 13x13 feature map이면 feature map의 개별 그리드에 있는 anchor box의 크기가 상대적으로 큽니다. 그래서 작은 오브젝트보다는 큰 오브젝트가 IOU가 높게 나타 날 수 있으므로 큰 오브젝트를 더 잘 학습/Detect합니다. 52x52 feature map이면 feature map의 개별 그리드에 있는 anchor box의 크기가 상대적으로 작기 때문에 큰 오브젝트 보다는 작은 오브젝트가 IOU가 높게 나타날 수 있으므로 작은 오브젝트를 더 잘 학습/Detect 합니다. 제가 저번에 배우기론.. 모델에서 후반부 컨볼루션을 통과한 Feature Map일수록 이미지 내에서 주요 오브젝트를 나타내는 특징 픽셀들만이 남는다고 알고 있는데 이 사실은 이미지 내부의 문제이지 이미지 자체 사이즈랑은 관련이 없는 거죠..? => 정확히 질문을 이해하지 못했는데, 만약 강의 설명상 큰 이미지에 대한 말씀을 하신다면, 해당 설명상 하나의 동일한 강아지 이미지를 설명을 드리고 있기에, 문맥적으로 큰 이미지는 큰 오브젝트로 당연히 이해하실 거라고 생각해서 '이미지'라고 말씀 드린것 같습니다(생각은 큰 오브젝트인데, 말이 큰 이미지로 나온것 같습니다) 정확하게는 오브젝트가 맞습니다. 감사합니다.