Mask RCNN 관련해 몇 가지 질문드립니다.
Q1. ROI Pooling의 Quantization 문제점들을 설명해주시면서 크게 2번의 Quantization 문제가 발생한다고 하셨는데요!
[1.원본이미지 -> Feature Map 될 때] 와 [2.Feature Map -> ROI Feature 될 때]
그런데 ROI Align은 Feature Map -> ROI Feature로 변환되는 즉 위에서 2번에서 발생하는 Quantization 문제점을 해결한 것인데.. 그러면 1번에서 발생하는 Quantization 문제점을 해결하는 방법은 따로 존재하나요?

Q2. 위 그림에서 ROI Align 예시를 설명해주실 때 Pixel 포인트 곱해주는 과정에서 가까운 그리드 중 S_4를 선택할 때 0.1, 0.2 중 왜 굳이 0.2를 선택한 이유는 뭔가요? 또 S_3에서는 0.9와 0.6중 굳이 0.9를 선택한 건가요..? 선택하는 기준이 뭔지 궁금하네요!
Q3.Binary Mask Prediction에서 픽셀이 'Masking인지 아닌지 여부'만 따진다고 했는데, 이 말의 의미가 A라는 픽셀이 클래스가 무엇이든 상관없이 Masking이면 1, 아니면 0이 된다라는 의미인건가요? 아니면 A라는 픽셀이 "'강아지'라는 객체를 Masking하는 것이다" 또는 "'강아지'가 아닌 객체를 Masking하는 픽셀이거나 Masking이 아닌 픽셀이다" 둘 중 하나를 의미하는 건가요?(무슨 말인지 이해가 잘 안되신 다면 답글 부탁드립니다 :) )
回答 2
1
안녕하십니까,
1.원본이미지 -> Feature Map 될 때] 와 [2.Feature Map -> ROI Feature 될 때]
그런데 ROI Align은 Feature Map -> ROI Feature로 변환되는 즉 위에서 2번에서 발생하는 Quantization 문제점을 해결한 것인데.. 그러면 1번에서 발생하는 Quantization 문제점을 해결하는 방법은 따로 존재하나요?
=> 1번과 2번에서 각각 발생하는 Quantization문제를 ROI Align으로 해결한 것입니다.
1번 기준으로 Feature map내의 매핑 좌표 포인트를 소수점을 포함한 좌표 포인트로 가져가게 됩니다. 이렇게 소수점을 포함한 좌표 포인트를 기반으로 Pooling을 적용하게 됩니다. 그래서 Pooling이 적용되는 위치가 정수형 좌표 포인트가 아니라 소수점을 감안한 좌표 포인트가 되며 여기서 Interpolation을 적용하면서 ROI Align을 맞추게 됩니다.
2. 위 그림에서 ROI Align 예시를 설명해주실 때 Pixel 포인트 곱해주는 과정에서 가까운 그리드 중 S_4를 선택할 때 0.1, 0.2 중 왜 굳이 0.2를 선택한 이유는 뭔가요? 또 S_3에서는 0.9와 0.6중 굳이 0.9를 선택한 건가요..? 선택하는 기준이 뭔지 궁금하네요!
=> 음, mask rcnn에 적용한 보간법을 상세하게 게시판으로 설명드리기에는 어려울 것 같습니다.
아래는 제가 강의에 참조한 문서이니 보간법 이해에 참조하시면 도움이 될 것 같습니다.
https://firiuza.medium.com/roi-pooling-vs-roi-align-65293ab741db
https://towardsdatascience.com/understanding-region-of-interest-part-2-roi-align-and-roi-warp-f795196fc193
3. Binary mask prediction은 특정 클래스가 아닌 클래스에 일단 해당 되는 픽셀 마스킹 여부를 예측합니다. 개와 고양이, 사자를 segmentation 한다고 할때 이미지에 개 masking이 전체 이미지의 1/10 정도의 크기로, 고양이가 1/10 정도의 크기, 사자가 2/10 정도의 크기로 있고, 나머지가 다 배경일 때 배경이 아닌 4/10정도의 영역에 있는 개 or 고양이 or 사자 픽셀 마스킹에 해당되는지를 prediction합니다.
감사합니다.
0
답변 감사드립니다! 3번 질문에 해주신 선생님의 답변을 제 방식으로 다시 정리하자면,
결국 'Binary Mask Prediction'이란, Masking인지 아닌지만 예측하는 것이 되지요? Masking 이라고 예측된 픽셀 값을 눈으로 직접 보았을 때, 그 픽셀값이 '개'에 해당하는 픽셀인지, '고양이'에 해당하는 픽셀인지, '사자'에 해당하는 픽셀인지는 구분할 수 없다는 말이신 건가요?
강의 환경설정 질문
0
40
2
Custom Dataset에서의 polygon 정보 관련
0
83
3
cvat.ai 보안 수준이 궁금합니다
0
80
2
캐클 nucleus 챌린지 runpod 실습 코드 에러 질문드립니다.
0
95
3
추론 결과의 Precision(또는 mAP) 평가 방법
0
85
2
mmdetection mask rcnn inferenct 실습 시 runpod 템플릿 관해서 질문드립니다.
0
59
2
runpod에서 google drive 연결 시 오류 발생
0
108
2
로드맵 선택
0
66
1
mmcv
0
57
2
Anchor box의 Positive 처리 위치
0
62
2
해당 강의 runpod 적용 후 에러 제보드립니다
0
85
2
run pod credit 관련 제보
0
97
2
mmdetection 2.x과 3.x 호환 관련 표기
0
77
2
mm_faster_rcnn_train_kitti.ipynb 실행 오류
0
96
3
질문 드립니다.
0
77
3
mm_faster_rcnn_train_coco_bccd 실행 오류 질문드립니다.
0
78
1
강사님께 수정을 제안드리고 싶은 것이 있습니다.
0
93
1
google automl efficientdet 다운로드 및 설치 오류
0
73
1
이상 탐지에 사용할 비전 기술 조언 부탁드립니다.
0
102
2
OpenCV 관련 질문드립니다.
0
70
2
mmcv 설치관련해서 문의드려요
0
329
3
강의 구성 관련해서 질문이 있습니다
1
135
2
모델 변환 성능 질문드립니다.
0
122
1
NMS 로직 문의 드려요
0
112
2

