인프런 커뮤니티 질문&답변

전재승님의 프로필 이미지
전재승

작성한 질문수

[개정판] 딥러닝 컴퓨터 비전 완벽 가이드

Yolo v2

작성

·

355

0

안녕하세요

Yolo v2에 대해서 몇가지 질문드리고 싶어서 글 남깁니다.

1.

Direct Location Prediction 에서

여기서 tw와 th가 학습을 통해서 적절한 값을 향하는걸로 이해했습니다.
그러면 그 값은 클래스마다 어떤 하나의 값으로 수렴되는게 아닌것같은데..

예를 들어 Car라는 클래스의 bbox를 예측하고 정답과 비교하며 학습한다고 했을때
t값을 예측하고, 그 값을 넣은 b값과,  정답을 비교하고 옳은 t값을 구하고 나서의 일들이 헷갈립니다.

저 t값을 위해 아주 많은 노드들의 가중치값이 조금씩 변화하다 보면 Car라는 클래스의 bbox크기를 점점 더 잘 맞추게 되는건가요?

전체적인 매커니즘이 잘 이해가 되지 않아서 질문 드립니다.

 

2.

논문에서 자세히 밝히지 않아 질문드립니다.

앵커박스를 mAP 70이상들은 쓰지 않았는데 왜 굳이 쓰지 않은건가요?
yolov2에서 바뀐것들중 큰 부분이라고 생각했는데 결국에 쓰지 않는것인지.. 이해가 잘 되지않습니다.

또한, 앵커박스를 쓰지 않았으면 yolov1과 같은 방식으로 2개의 box를 이용했다는것인지 궁금합니다.

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까, 

1. yolo loss는  location loss, classification loss그리고 object confidence loss가 합쳐진것 입니다. 즉 object의 너비/높이 loss과 중심 좌표 loss인 location loss와 해당 object로 예측한 classification에 대한 loss, 그리고 해당 object가 object인지 background인지에 대한 confidence loss가 다 합쳐진것입니다. 

말씀하신대로 object의 classification을 bbox로 예측하고 거기에 location을 찾아가는게 아니라, 13x13  feature map의 개별 point(즉 13x13개의 point)별로 5개의 anchor box를 할당하고(할당된 anchor box는 13x13x5)이 개별 anchor box별로 location loss + classification loss + object loss로 전체 loss를 줄여가는 방식입니다.  전체 loss를 줄여가는 방식이므로 특정 loss, 가령 classification loss만 좋아지는 방식이 되는 것이 아니라 전체 loss를 줄여가는 방식으로 최적화가 진행 됩니다. 

 

2. 앵커박스를 mAP 70이상들은 쓰지 않았다는 의미를 잘 이해하지 못했습니다. 이게 어떤 것인지 다시 한번 말씀해 주십시요. 

전재승님의 프로필 이미지
전재승
질문자

네, 저 표에 체크표시를 보고 말씀드린겁니다.

VOC2007mAP 69.2와 69.6에는 anchor boxes? 에 체크가 되어있는데 74.4 이상의 것들에는 체크가 되어있지않아서 그 부분이 이해가 되지않아서 말씀드린것 입니다. 감사합니다!

전재승님의 프로필 이미지
전재승

작성한 질문수

질문하기