v1 vs v2 질문있습니다.

Question

안녕하세요 :) offset 값+ 클래스 스코어 등의 정보를 셀 별로 갖는 것과 BB별로 갖는 것의 차이가 무엇인지 궁금합니다. v1의 셀 당 두개의 BB를 갖던 것을 셀 당 다섯개의 BB를 갖도록 변경해서 모든 정보를 한 셀이 갖는 것이 아니라 v2처럼 5개의 BB가 개별로 정보를 갖는 것으로 변경되면서 얻을 수 있는 이점이 무엇인지 궁금합니다. v1에서 두 개의 BB가 하나의 Class Scores를 공유했다면 v2에서는 5개의 BB별로 각자의 Class Scores가 존재해서 정확성을 높일 수 있는 것인지 추측해봤습니다. 만약 맞다면 v1에서 공유했던 class socres는 두 BB의 무엇을 기준으로 추출된 것인지 궁금합니다. 이해력이 부족하여 질문이 잦아 죄송스럽습니다 ㅠ 미리 감사의 말씀 올립니다!

권 철민 · Answer

안녕하십니까, v1의 제일 큰 문제는 cell 레벨의 Detection으로 cell에 있는 여러개의 작은 클래스들을 Detection 할 수 없었다는 것입니다. 여러명이 한 cell에 있는 경우 이들을 모두 Detection 할수가 없었습니다. 그래서 anchor box 기반으로 바꾼것입니다. 이들 개별 anchor들은 또한 shape, ratio 들이 달라서 다양한 형태의 클래스들 특히 V1과 다르게 여러개의 클래스들이 모여 있는 경우들도 Detection 할 수 있었습니다. V2에서는 말씀하신대로 anchor 별로 클래스 확률을 가집니다. v1은 bbox가 클래스 확률을 가진다기 보다는 bbox 위치 정보를 가지는 것이고 cell 이 클래스 확률을 가집니다. v1은 cell 이 중심입니다. 감사합니다.