작성
·
296
답변 1
0
안녕하십니까,
object detection 모델이 일반 image classification 보다 어려운게, 말씀하신대로 Ground Truth와 예측값과의 손실값을 보정하는 방법으로는 좋은 모델을 만들수가 없습니다.
특히나 여러개의 object들이 이미지에 있는 경우 이들 오브젝트들의 특징만을 가지고 Ground truth와 손실값을 보정하는 방식의 경우 좀 가까이 붙어 있으면 bounding box가 심하게 중복되서 나오거나 좀 떨어져 있으면하나의 오브젝트만 검출하고 다른 오브젝트를 검출하지 못한다던가 아님, 아예 엉뚱한 bounding box를 예측하는 등의 문제가 발생하기 쉽습니다.
그래서 생각해 낸게, anchor box와 같이 object가 있을 만한 reference를 기준으로 하고, 이 reference에서 얼마나 떨어져 있는지를 기반으로 오브젝트를 찾는 방식으로 발전한 것입니다. 이렇게 하면 보다 촘촘하게 예측 bounding box를 만들 수 있기 때문입니다. 물론 이때문에 전반적으로 모델이 매우 복잡하게 되는 단점은 있지만, 현대 object detection의 기반은 anchor box와 같은 refererence를 기반으로 발전하게 되었습니다.
감사합니다.