Mask RCNN 관련해 몇 가지 질문드립니다.

Question

Q1. ROI Pooling의 Quantization 문제점들을 설명해주시면서 크게 2번의 Quantization 문제가 발생한다고 하셨는데요! [1.원본이미지 -> Feature Map 될 때] 와 [2.Feature Map -> ROI Feature 될 때] 그런데 ROI Align은 Feature Map -> ROI Feature로 변환되는 즉 위에서 2번에서 발생하는 Quantization 문제점을 해결한 것인데.. 그러면 1번에서 발생하는 Quantization 문제점을 해결하는 방법은 따로 존재하나요? Q2. 위 그림에서 ROI Align 예시를 설명해주실 때 Pixel 포인트 곱해주는 과정에서 가까운 그리드 중 S_4를 선택할 때 0.1, 0.2 중 왜 굳이 0.2를 선택한 이유는 뭔가요? 또 S_3에서는 0.9와 0.6중 굳이 0.9를 선택한 건가요..? 선택하는 기준이 뭔지 궁금하네요! Q3.Binary Mask Prediction에서 픽셀이 'Masking인지 아닌지 여부'만 따진다고 했는데, 이 말의 의미가 A라는 픽셀이 클래스가 무엇이든 상관없이 Masking이면 1, 아니면 0이 된다라는 의미인건가요? 아니면 A라는 픽셀이 "'강아지'라는 객체를 Masking하는 것이다" 또는 "'강아지'가 아닌 객체를 Masking하는 픽셀이거나 Masking이 아닌 픽셀이다" 둘 중 하나를 의미하는 건가요?(무슨 말인지 이해가 잘 안되신 다면 답글 부탁드립니다 :) )

dooleyz3525 · Answer

안녕하십니까, 1.원본이미지 -> Feature Map 될 때] 와 [2.Feature Map -> ROI Feature 될 때] 그런데 ROI Align은 Feature Map -> ROI Feature로 변환되는 즉 위에서 2번에서 발생하는 Quantization 문제점을 해결한 것인데.. 그러면 1번에서 발생하는 Quantization 문제점을 해결하는 방법은 따로 존재하나요? => 1번과 2번에서 각각 발생하는 Quantization문제를 ROI Align으로 해결한 것입니다. 1번 기준으로 Feature map내의 매핑 좌표 포인트를 소수점을 포함한 좌표 포인트로 가져가게 됩니다. 이렇게 소수점을 포함한 좌표 포인트를 기반으로 Pooling을 적용하게 됩니다. 그래서 Pooling이 적용되는 위치가 정수형 좌표 포인트가 아니라 소수점을 감안한 좌표 포인트가 되며 여기서 Interpolation을 적용하면서 ROI Align을 맞추게 됩니다. 2. 위 그림에서 ROI Align 예시를 설명해주실 때 Pixel 포인트 곱해주는 과정에서 가까운 그리드 중 S_4를 선택할 때 0.1, 0.2 중 왜 굳이 0.2를 선택한 이유는 뭔가요? 또 S_3에서는 0.9와 0.6중 굳이 0.9를 선택한 건가요..? 선택하는 기준이 뭔지 궁금하네요! => 음, mask rcnn에 적용한 보간법을 상세하게 게시판으로 설명드리기에는 어려울 것 같습니다. 아래는 제가 강의에 참조한 문서이니 보간법 이해에 참조하시면 도움이 될 것 같습니다. https://firiuza.medium.com/roi-pooling-vs-roi-align-65293ab741db https://towardsdatascience.com/understanding-region-of-interest-part-2-roi-align-and-roi-warp-f795196fc193 3. Binary mask prediction은 특정 클래스가 아닌 클래스에 일단 해당 되는 픽셀 마스킹 여부를 예측합니다. 개와 고양이, 사자를 segmentation 한다고 할때 이미지에 개 masking이 전체 이미지의 1/10 정도의 크기로, 고양이가 1/10 정도의 크기, 사자가 2/10 정도의 크기로 있고, 나머지가 다 배경일 때 배경이 아닌 4/10정도의 영역에 있는 개 or 고양이 or 사자 픽셀 마스킹에 해당되는지를 prediction합니다. 감사합니다.

iamcodingcat · Answer

답변 감사드립니다! 3번 질문에 해주신 선생님의 답변을 제 방식으로 다시 정리하자면, 결국 'Binary Mask Prediction'이란, Masking인지 아닌지만 예측하는 것이 되지요? Masking 이라고 예측된 픽셀 값을 눈으로 직접 보았을 때, 그 픽셀값이 '개'에 해당하는 픽셀인지, '고양이'에 해당하는 픽셀인지, '사자'에 해당하는 픽셀인지는 구분할 수 없다는 말이신 건가요?