강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

원래그런거임님의 프로필 이미지
원래그런거임

작성한 질문수

딥러닝 기반 이미지·객체 인식: CNN에서 YOLO·DETR까지

Fast R-CNN 이해 - ROI (Region of Interest) 개념

Fast R-CNN 강의 관련 질의사항입니다.

해결된 질문

작성

·

15

·

수정됨

0

안녕하세요 강사님.

 

Fast R-CNN 강의를 들으며 이해가 잘 되지 않는 부분이 있어 질문드립니다.

 

원본 이미지를 800×800으로 입력하고, (1) Selective Search로 생성한 region proposal과 (2) CNN을 통해 얻은 feature map을 합치는 과정을 저는 RoI Projection이라고 이해했습니다.

 

Q1. 그런데 region proposal 결과가 왜 원본 이미지와 달리 500×700 크기로 나오는지 궁금합니다.

Q2. 또한 feature map은 원본 이미지 전체(800×800)를 커버하는 반면, region proposal은 앞선 질문처럼 이미지 일부(500×700)만을 다룹니다. 그런데도 RoI Projection을 적용했을 때, region proposal이 feature map 전체에 반영된 것처럼 보이는 그림이 이해되지 않습니다. 강의 자료에는 5x7 혹시 이는 그림의 단순화/오류인지 궁금합니다.

 

Q3. 추가적으로, Fast R-CNN과 Faster R-CNN은 네트워크 학습을 기반으로 하기 때문에 단순히 입력 이미지에 바운딩 박스를 그리는 것 외에도 라벨링 과정이 필요할 것 같습니다. 이러한 라벨들이 어떻게 생성되는지에 대한 추가 강의도 있으면 좋겠습니다. (예: Fast R-CNN은 최종 예측을 위한 라벨, Faster R-CNN은 RPN 단계와 최종 예측을 위한 라벨)

 

읽어주셔서 감사합니다.

 

image.png

 

답변 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
지식공유자

Q1. 그런데 region proposal 결과가 왜 원본 이미지와 달리 500×700 크기로 나오는지 궁금합니다.
--> 800×800 전체에서 부분 영역만 골라서 처리한다는 걸 보여주기 위해 임의의 크기를 넣은 것 입니다.즉, 500×700은 고정값이 아니고, “region proposal은 원본 이미지보다 작은 부분 영역일 수 있다”는 사실을 이해시키기 위한 예시 숫자입니다.

Q2. 또한 feature map은 원본 이미지 전체(800×800)를 커버하는 반면, region proposal은 앞선 질문처럼 이미지 일부(500×700)만을 다룹니다. 그런데도 RoI Projection을 적용했을 때, region proposal이 feature map 전체에 반영된 것처럼 보이는 그림이 이해되지 않습니다. 강의 자료에는 5x7 혹시 이는 그림의 단순화/오류인지 궁금합니다.
--> 그림이 잘못된 건 아니고 설명을 쉽게 하려고 실제 계산 과정을 단순화해서 보여준 예시라서 그렇습니다. feature map은 전체 이미지를 커버하지만, RoI Projection은 region proposal이 차지하는 부분 영역만 골라서 feature map에서 잘라 씁니다. 강의자료의 그림이 feature map 전체에 색이 칠해진 것처럼 보이는 건 “설명용 그림”일 뿐이고, 실제 연산에서는 proposal에 해당하는 5×7 영역만 사용해 고정 크기로 max pooling 합니다.

Q3. 추가적으로, Fast R-CNN과 Faster R-CNN은 네트워크 학습을 기반으로 하기 때문에 단순히 입력 이미지에 바운딩 박스를 그리는 것 외에도 라벨링 과정이 필요할 것 같습니다. 이러한 라벨들이 어떻게 생성되는지에 대한 추가 강의도 있으면 좋겠습니다.
--> 좋은 지적 감사합니다. 다음에 강의를 업그레이드 할 때 포함시키도록 노력하겠습니다. 감사합니다.

 

원래그런거임님의 프로필 이미지
원래그런거임

작성한 질문수

질문하기