선생님 질문입니다!

Question

구글링을 해도 잘 이해가 안되서 이렇게 질문을 남깁니다.원본이미지는 이미지내에 오브젝트가 어떤 것이 있는지, 어디에 있는지에 대한 정보인 레이블 값과 비슷한 Annotation 파일과 1:1 매치가 됩니다. (pascal데이터라는 가정하에) 그러한 이미지를 selective search를 통해서 예측한 box와 실제위치 (ground truth)의 겹치는 정도(IOU)가 0.5 이상인 이미지를 미리 학습된 CNN(Alexnet)에 넣어 이 이미지가 예측한 이 곳이 '사람'이다. 라고 분류를 해주는 순으로 가는거라 생각하는데. 제가 이해한게 맞는건지 잘 모르겠습니다. 또한 IOU가 0.5이상인 ss predicted 된 박스의 레이블은 어떻게 결정되는 건가요? 머릿속이 너무 뒤죽박죽이라 질문이 두서가없는 점 죄송합니다.

Answer

질문 내용을 RCNN에 대한 개괄적인 질문으로 판단하고 답변 드리겠습니다.

Object Detection이 Image classification에 비해서 가장 크게 다른점은 이미지와 annotation 정보만 가지고 학습을 하기가 매우 어렵다는 것입니다.

단순히 이미지와 annotation 정보만 가지고 image classification과 같은 방식을 적용해서 학습할 경우 모델 성능이 굉장히 저하 됩니다. annotation상의 object 위치만 가지고는 모델이 학습을 진행하기에 정보가 크게 부족하고, 잘못된 예측에 이르는 경우가 많아지게 됩니다.

그래서 이미지 상에서 오브젝트가 있을 만한 위치를 미리 찾아내거나 설정하는 방법이 학습과정 중에 포함됩니다. 이렇게 미리 찾아낸 위치에서 annotation의 실제 위치가 어느정도 차이가 있는지를 학습하는 방식이 바로 object detection의 학습 방식입니다. 그러니까 오브젝트의 절대적인 위치를 학습하는게 아니라 오브젝트가 있을 만한 위치와 annotation의 실제 위치 차이를 기반으로 모델이 학습되는 것입니다.

이를 위해 selective search를 이용해서 미리 오브젝트가 있을 만한 위치를 찾아내는데, selective search가 찾아내는 object들이 굉장히 많습니다. 이들 중에 annotation bbox가 서로 상당 부분 겹치는 경우(즉 IOU가 0.5) 인 경우만 해당 클래스로 학습을 하는 것입니다.

그리고 2번째 질문하신

"또한 IOU가 0.5이상인 ss predicted 된 박스의 레이블은 어떻게 결정되는 건가요?"

(은 제가 질문 내용을 제대로 이해하지 못했습니다만) 박스의 레이블은 annotation에 있는 박스의 레이블로 계속 학습됩니다. 원하시는 답변이 아니면 다시 글 부탁드립니다.

감사합니다.

Alex

선생님 질문입니다!

이 글과 비슷한 Q&A

bfs 시간복잡도 관련 질문입니다!

현업에서 detection 시 데이터셋의 수가 어느정도 되야하나요?

Redis 연결중 import

3-4 수치형 - 민맥스 스케일링