YOLO V2 질문 있습니다!!

Question

안녕하세요! 선생님 yolo v2 질문있습니다. Input image를 7*7 gride로 나누고 각 grid의 cell이 5개의 anchor box를 기준으로 object Bbox를 예측하지 않습니까? 그런데 학습이 어떻게 되는지 궁금합니다.  학습할때 fine tuning을 해서convolution layer(feature extrater)는 얼린다(?)고 들었는데, 그럼 bbox에 관한 훈련은 feature extrater 뒤 부분인 classification layer만 학습하는 것입니까?  그러면 pretrain된 convolution layer(feature extrater)는 bbox 관련해서 사용하지 않고 이미지 특징만 추출하는 것입니까?? 궁금해서 질문 드립니다.

Answer

안녕하십니까,

질문하신 부분은 일반적인 학습이 아닌 Fine tuning 기반의 학습입니다.

일반적인 Yolo 학습을 물어보신건지, 아님 Fine tuning 기반의 학습을 물어보신건지 확실히 모르겠지만, 질문 상으로 Fine tuning 기반의 학습을 물어보신걸로 생각되어 답변 드립니다.

Fine tuning은 CNN 레이어를 학습하지 않는 것이 아니라 학습을 원하는 데이터 세트와 상당히 다른 데이터 세트로 Pretrained 된 CNN 레이어를 학습할 때 적용하는 방식입니다.

이미지가 서로 차이가 나서 Pretrained된 CNN 모델의 Weight가 학습데이터 세트와 비교해 상당히 다를 수 있다고 판단되면 바로 CNN 과 Classification layer를 같이 학습하지 않고 Classification layer부터 일정 부분 학습해서 classification layer의 weight를 어느정도 수준 먼저 학습한 뒤에 나중에 CNN layer를 포함한 전체 layer를 모두 학습하는 방식입니다.

원하는 답변이 아니면 다시 글 부탁드립니다.

감사합니다.

GEONHO

YOLO V2 질문 있습니다!!

이 글과 비슷한 Q&A

코딩테스트 10일정도 남았습니다..

라우터 함수를 비동기함수로 작성하셨다가 동기함수로 작성하시기도 하는 이유가 궁금합니다.

좀 더 맛깔나게 써봅시다! / 질문

서버쪽 part2 부분 은 언제쯤 나오나요??