• 카테고리

    질문 & 답변
  • 세부 분야

    컴퓨터 비전

  • 해결 여부

    미해결

Input Image Size에 대한 질문입니다

22.01.16 19:07 작성 조회수 826

0

안녕하세요 교수님 강의를 열심히 듣고 있는 학생입니다.
다른게 아니고 input image size를 왜 (224,224)를 쓰는지 궁금합니다. VGG도 그렇고 GoogleNet도 그렇고 왜 224를 쓰는 건가요?
VGG논문을 다 읽어봤지만 그거에 대한 명확한 답을 찾지 못했습니다. 다양한 이미지를 crop하기 위해서 224로 설정했다는 답변을 본적은 있지만 왜 굳이 224인지는 이해하지 못했습니다. 혹시 말씀해주실 수 있을까요?

답변 1

답변을 작성해보세요.

1

안녕하십니까, 

224 가 추축컨데 AlexNet부터 그렇게 설정을 해와서 그런것 같습니다.  최초 이미지 사이즈는 최종으로 생기는 Feature map의 크기와 학습 시간 사이의 적절한 값을 찾는데, 아마도 AlexNet을 그 기준으로 224를 잡은것 같습니다. 

가령 이미지가 너무 작으면 마지막에 만들어지는 feature map사이즈가 매우 작아지고, 또 너무 크면 학습에 너무 오랜 시간이 소모됩니다. 이런 기준을 가지고 AlexNet에서 224로 초기 이미지 사이즈를 설정하였고, 이후에 많은 모델들이 대부분 224 를 초기 이미지 사이즈로 정한것 같습니다. 

감사합니다. 

gusehd1113님의 프로필

gusehd1113

질문자

2022.02.03

좋은 답변 감사드립니다!!