이미지 피라미드, 피처 피라미드란?

Question

안녕하세요. 강의 잘 듣고 있습니다. Sliding Window 방식 페이지 설명하시면서, 이미지 피라미드와 피처 피라미드를 언급하셨는데 상세 내용이 궁금하여 질문 드립니다. 어떠한 내용인지요? 그리고 앵커박스의 경우 슬라이딩을 한번 할때 다양한 윈도우를 겹쳐서 이동시킴으로써 비교적 짧은 시간 내 다양한 형태를 검출한다 라는 개념이 맞는 건지도 궁금합니다.

권 철민 · Answer

안녕하십니까, 1. 앞으로 이미지 피라미드, 피처(맵) 피라미드에 대해서 말씀드릴 강의들이 기다리고 있습니다만, 먼저 말씀드리면 이미지 피라미드는 윈도우 크기는 고정하고 원본 이미지 대비 서로 다른 크기를 가진 이미지들을 차례로 스캔하면서 검출하는 방식입니다. 즉 원본 400x400 -> 200x200 -> 100x100->... 과 같이 원복 이미지의 사이즈를 줄여가면서 상대적으로 큰 오브젝트를 Detect하는 방식입니다. 하지만 이 방식은 이제 딥러닝 기반 Object Detection에서는 거의 사용되지 않습니다. 피처맵 피라미드는 이미지 피라미드와 유사합니다. 다만 원본 이미지의 사이즈를 줄이는게 아니라, 원본 이미지의 최종 Convolution 을 통해 추출된 피처맵(Feature Map)을 Down Sampling (피처맵 크기를 줄이는) 또는 Up Sampling(피처맵 크기를 늘리는) 작업을 통해 여러 사이즈의 피처맵들을 기반으로 Object Detection을 수행합니다. 최근 Object Detection 기법들은 이 피처맵 피라미터 기반을 응용하여 활용합니다. 2. 앵커박스는 고정된 윈도우의 단점을 해결하는 방식에 대해 개념적인 설명을 위해서 그리 설명드린 것입니다만, 일반적으로 앵커박스가 슬라이딩 윈도우와 같이 이동하지는 않습니다. 추후 강의에서 앵커박스에 대해서 보다 자세히 말씀드리겠지만 보통 앵커박스는 피처맵의 개별 포인트별로 다양한 형태의(횡종비, 크기가 다른) 박스들을 생성하게 되고 이를 기반으로 오브젝트의 위치를 파악하게 됩니다. 피처맵이 10x10의 크기라면 개별 피처맵 포인트는 100개가 되고 이 100개의 포인트별로 다양한 형태의 앵커박스 3개가 있다고 한다면 총 300개의 앵커박스가 위치합니다. 이렇게 위치한 앵커박스를 기반으로 Object Detection을 수행하게 됩니다. 현재는 이정도 수준으로만 설명을 드리고, 이제 Faster RCNN, SSD등으로 넘어가시면 본격적으로 앵커박스에 대한 설명이 나오니, 이후 강의를 참조 부탁드립니다. 감사합니다.