미해결
[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
해당 강의까지 듣고 Faster RCNN에 anchor box에 대한 내용 이해점검과 질문
< 강의를 이해한 내용 >
anchor box는 3가지의 사각형 형태, 3가지의 다른 크기로 이루어져 있다.
즉, anchor box는 9개의 다양한 사각형을 이용하여 이미지의 해당 부분의 obj 존재여부를 판단해내는 것이다.
anchor box는 원본 이미지에 적용되는 것이 아니라 Feature Map에 적용되는 것이다.
Feature Map에 가로 x 세로의 수만큼 anchor box가 생기게 된다.
여기서 anchor box는 총 9가지의 box로 이루어져 있으므로 9개의 depth(차원)이 적용되어
총 생기는 anchor box는 가로 x 세로 x 차원(9) 인 것이다.
anchor box는 Feature Map에 생기게 되는데,
학습을 위해 3x3 conv 층을 통과하고, 빠른 학습과 정보 압축을 위해서 1x1 conv 층을 통과한다.
이때 9개의 차원으로 압축되게 되는데, 9개로 압축되는 이유는
anchor box가 3가지의 형태와 3가지의 크기로 총 9개의 box로 이루어져 있기 때문이다.
1x1 conv층을 통해 압축까지 된 Feature Map에 anchor box를 그리게 되면 (가로 x 세로 x 차원)의 수만큼 anchor box가 나오게 되는 것이다.
질문
- 마치 conv층의 필터를 정의하듯, anchor box의 각 box별 모양과 크기를 정해주어야 할텐데 anchor box의 정의는 어느 부분에서 하나요?
- Feature Map의 각 9개의 차원별로 각 box가 적용되는 것이 아니라 각 차원별로 모두 9개 다양한 크기의 box가 적용되는 것이 맞나요?
- 만약 그렇다면 굳이 압축 차원이 9개여야 할 필요가 있을까요? 1x1 conv층에서 9개의 차원과 anchor box 구성의 box수는 무관한 것으로 느껴집니다.