인프런 커뮤니티 질문&답변

Seongc좋은ᅵᅵheol Kim님의 프로필 이미지
Seongc좋은ᅵᅵheol Kim

작성한 질문수

[개정판] 딥러닝 컴퓨터 비전 완벽 가이드

SSD의 이해 03 - SSD 네트웍 구조와 Multi Scale Feature Map/Anchor box의 활용

강사님 강의 잘 듣고 있습니다. 질문 하나 드리겠습니다.

작성

·

112

0

워낙 강의를 쉽게 잘 해주셔서 감사하게 생각하고 있습니다.
금번 강의 끝나면 바로 스파크학습하려고 구매해둔 상태입니다.
 
강사님이 강의하신 거라면 뭔가 많이 기대가 되네요
 
질문 드리고 싶은건
 
1. CNN 의 경우 입력된 이미지가 어떤 것인지 판단할 수 있는 필터를 생성해 내는 과정이 학습과정이고 이 과정 즉 원본이미지와 필터 사이에서 생성되는 것이 FutureMap으로 알고 있습니다. 나중에 이렇게 생성된 필터를 바탕으로 이미지가 들어왔을 때 학습된 필터를 적용해 이미지를 판별해 내는 과정으로 이해하고 있습니다.
 
2. Faster CNN 뿐만 아니라 SSD 에서도 강사님께서는 컴퓨터가 제시한 Anchor box 와 Ground Truth 간의 좌표값의 차이를 최소화 시키는 과정이 학습 과정이라고 하셨는데 잘 이해가 되질 않습니다. 좌표값(Ground Truth)이란것은 이미지가 바뀌면 바뀌는 것인데 좌표값을 왜 학습 시키나? 예로 훈련중에는 (1,1,10,10) 좌표에 있었지만 실제 prediction 할 때는 object 의 위치는 전혀 다른 좌표일거 같은데 이게 이해가 되질 않았습니다.
 
강사님께서 말씀하신 내용 안에 다른 의미가 있을거 같아 질문 드립니다. 즉 GT 영역안에 해당하는 Future Map 값과 Anchor box 가 나타내는 영역의 Feature Map 값을 최소화 시키는 작업을 하는 건 아닌지 ? 등 나름의 상상을 하다 보니 막막하기만 해서요
 
강사님 설명 부탁드립니다. 즉 좌표값을 일치시킨다는 구체적 의미와 그걸로 학습된 모델이 향후 입력되는 즉 전혀 다른 이미지의 좌표와 무엇인지를 판별해 낼 수 있는지 설명 부탁드릴수 있는지요 ?
 
꼭 답변 부탁드립니다.

답변 1

1

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까, 

아이고, 이렇게 좋은 평가를, 그리고 다른 강의도 구매해 주셔서 감사합니다. 

 

1. CNN 의 경우 입력된 이미지의 Future 를 뽑아내고 이를 입력으로 하여 이미지가 어떤 것인지 판단할 수 있는 필터를 생성해 내는 과장이 학습과정이고 나중에 이렇게 생성된 필터를 바탕으로 이미지가 들어왔을 때 학습된 필터를 적용해 이미지를 판별해 내는 과정으로 이해하고 있습니다.

=> 네 맞습니다. 

2. Faster CNN 뿐만 아니라 SSD 에서도 강사님께서는 컴퓨터가 제시한 Anchor box 와 Ground Truth 간의 좌표값의 차이를 최소화 시키는 과정이 학습 과정이라고 하셨는데 잘 이해가 되질 않습니다. 좌표값이란것은 이미지가 바뀌면 바뀌는것인데 좌표값을 왜 학습 시키나?
즉 강사님께서 말씀하신 내용 안에 다른 내용이 있을거 같아 질문 드립니다. 즉 GT 에 해당하는 Future Map 값과 Anchor box 가 나타내는 영역의 Feature Map 값을 최소화 시키는 작업을 하는 건 아닌지 ? 등 나름의 상상을 하다 보니 막막하기만 해서요

=> 좌표값을 학습하는 것은 아니고 anchor box와 object간의 좌표 차이를 학습 합니다.  말씀하신 대로 이미지에서 오브젝트들을 좌표들이 계속 변하기 때문에 이를 학습시키는 것은 매우 어렵습니다. 그래서 어느 정도 오브젝트의 좌표를 대강이라도 파악하기 위해서 selective search등이 동원되었습니다. 

anchor box 기반의 object detection은 단순하게 생각하면  anchor box를 학습시키는데 초점을 맞춘다고 생각할 수 있습니다.  이미지 grid위에 여러 형태의 anchor box를 가지고 해당 anchor box와 ground truth 좌표가 얼마나 떨어져 있는지를 계속 학습 합니다.  여기서 특정 anchor box는 이미지 상의 모든 ground truth들을 학습하지 않고 가장 가까운 ground truth들을 학습해 나갑니다. 많은 이미지 상에서 여러가지 유형의 오브젝트들을 가지는 ground truth들을 기반으로 학습하면 개별 anchor box들이 ground truth와의 좌표 차이를 최소화 할 수 있도록 모델이 최적화 됩니다. 

그럼 이렇게 최적화된 모델에 새로운 이미지를 입력하면  anchor box들이 학습된 최적화 모델상에서 오브젝트와의 좌표 차이를 계산해 내는데, 학습이 제대로 되었다면 이들 중 가장 가까운 anchor box가 보다 정확한 좌표값을 내놓게 되며 이를 기반으로 bounding box 로 object 좌표를 예측할 수 있습니다. 

감사합니다. 

 

Seongc좋은ᅵᅵheol Kim님의 프로필 이미지
Seongc좋은ᅵᅵheol Kim

작성한 질문수

질문하기