작성
·
112
0
답변 1
1
안녕하십니까,
아이고, 이렇게 좋은 평가를, 그리고 다른 강의도 구매해 주셔서 감사합니다.
1. CNN 의 경우 입력된 이미지의 Future 를 뽑아내고 이를 입력으로 하여 이미지가 어떤 것인지 판단할 수 있는 필터를 생성해 내는 과장이 학습과정이고 나중에 이렇게 생성된 필터를 바탕으로 이미지가 들어왔을 때 학습된 필터를 적용해 이미지를 판별해 내는 과정으로 이해하고 있습니다.
=> 네 맞습니다.
=> 좌표값을 학습하는 것은 아니고 anchor box와 object간의 좌표 차이를 학습 합니다. 말씀하신 대로 이미지에서 오브젝트들을 좌표들이 계속 변하기 때문에 이를 학습시키는 것은 매우 어렵습니다. 그래서 어느 정도 오브젝트의 좌표를 대강이라도 파악하기 위해서 selective search등이 동원되었습니다.
anchor box 기반의 object detection은 단순하게 생각하면 anchor box를 학습시키는데 초점을 맞춘다고 생각할 수 있습니다. 이미지 grid위에 여러 형태의 anchor box를 가지고 해당 anchor box와 ground truth 좌표가 얼마나 떨어져 있는지를 계속 학습 합니다. 여기서 특정 anchor box는 이미지 상의 모든 ground truth들을 학습하지 않고 가장 가까운 ground truth들을 학습해 나갑니다. 많은 이미지 상에서 여러가지 유형의 오브젝트들을 가지는 ground truth들을 기반으로 학습하면 개별 anchor box들이 ground truth와의 좌표 차이를 최소화 할 수 있도록 모델이 최적화 됩니다.
그럼 이렇게 최적화된 모델에 새로운 이미지를 입력하면 anchor box들이 학습된 최적화 모델상에서 오브젝트와의 좌표 차이를 계산해 내는데, 학습이 제대로 되었다면 이들 중 가장 가까운 anchor box가 보다 정확한 좌표값을 내놓게 되며 이를 기반으로 bounding box 로 object 좌표를 예측할 수 있습니다.
감사합니다.