AP, mAP의 차이점과 Ground Truth Bounding Box 질문입니다!

Question

안녕하세요! 선생님, 예전 머신러닝 강의도 들어왔는데 이번 컴퓨터 비전 강의도 듣게 된 애청자 입니다! 다름이 아니라 질문이 있는데요! 1. AP와 mAP의 차이점에 대해 언급해주실 때 AP는 하나의 오브젝트에 대한 Precision 평균값이고 mAP는 여러 오브젝트에 대한 Precision 평균값들의 '평균값'이라고 설명해주셨는데요! 그렇다면 예를 들어 어떤 이미지에 자동차, 사람, 강아지 이렇게 3개의 오브젝트들이 있을 때 자동차에 대한 AP 따로, 사람에 대한 AP 따로, 강아지에 대한 AP 따로 계산을 하고 이 3가지를 평균값을 낸 걸로 이해하면 맞을까요? 2. 이전 강의에서 Bounding Box를 찾는 게 Regression 문제라고 하셨잖아요!? 그렇다면 어쨋거나 Ground Truth Bounding Box 좌표가 주어진 상태에서 뉴럴 넷이 Regression을 하는 지도학습이라고 볼 수 있는 거죠? 만약 지도학습이라고 한다면 각 이미지 마다 Ground Truth Bounding Box 좌표들은 사람이 직접 레이블링 해주어야 하는 건가요? 뉴럴넷이 알아서 Ground Truth Bounding Box를 찾아서 그 좌표로 수렴할 순 없지 않나요? 뉴럴넷이 찾은 Ground Truth 좌표가local minimum 인지 global minimum인지는 정확히 알 수 없으니까요..? 혹여나 제가 잘못알고 있는 지식이 있다면 지적은 환영입니다! 답변 기다리겠습니다~!

권 철민 · Answer

아이고, 연이어 강의를 선택해 주셔서 감사드립니다. 1. 네, 맞습니다. mAP는 여러 Object들의 AP를 평균한 것입니다. 2. 네, 맞습니다. 지도학습 입니다. 그래서 오브젝트 별로 Ground truth 좌표와 레이블을 직접 만들어 줘야 합니다. 이게 작업이 손이 많이 갑니다. 감사합니다.