dataset 선택에 대하여 질문드립니다.

Question

안녕하십니까 교수님

최근 진행중인 프로젝트 수행을 위해서 강의를 듣고 있는 학생입니다.

현재 depth camera 를 이용하는 딥러닝 프로젝트를 진행하며 여러가지 오픈소스를 찾던 중

ssd-mobilenet 을 PASCAL VOC 로 학습한 것과

같은 알고리즘 ssd-mobilenet를 사용하여 COCO dataset으로 학습된 것을 봤습니다.

만약 오픈 소스를 사용하는 입장이면(학습하는 시간을 고려하지 않았을 때) 무조건 데이터 분류가 많고, 사진 당 오브젝트 수가 많은 COCO 데이터셋이 학습된 소스가 좋다고 생각하는데 혹시 다른 차이가 있을까 궁금해서 이렇게 질문드리게 되었습니다

학습 분류가 많을수록 FPS 에 의한 차이가 있나요?
학습 분류가 많을수록 특정 사물에 대한 detection 성능의 차이가 있을 수 있나요? - 예를 들어 person 데이터만 필요할 때 PASCAL VOC, COCO 또는 open image 를 사용할 때 성능 차이가 발생하나요?
다른 차이가 있을까요?

강의는 항상 잘 듣고 있습니다. 덕분에 다양한 프로젝트를 진행하여 취업까지 연결할 수 있었습니다. 아직 반정도 남았지만 분발하여 꼭 완강하도록 하겠습니다.

감사합니다!!

Answer

안녕하십니까,

오, 취업에 성공하셨군요. 축하드립니다.

0. 일반적으로 모델에 따라 차이가 있을 수는 있지만, 동일한 모델이라면 다양한 데이터 모델로 학습한 모델이 조금이라도 더 좋은 성능을 가질 확률이 높습니다. 이유는 추론을 수행하게 될 이미지들이 보통은 학습 데이터와 다른 경우가 있을 수 있기 때문입니다. 때문에 대부분의 Pretrained 모델이 Pascal VOC보다는 MS COCO로 학습 된 모델을 제공합니다.

1. 학습 분류가 많을수록 FPS 에 의한 차이가 있나요?

=> 음, 이건 테스트 해보지는 않았지만, 의미있는 정도의 큰 차이는 없을 거라 생각됩니다.

2. 학습 분류가 많을수록 특정 사물에 대한 detection 성능의 차이가 있을 수 있나요? - 예를 들어 person 데이터만 필요할 때 PASCAL VOC, COCO 또는 open image 를 사용할 때 성능 차이가 발생하나요?

=> PASCAL VOC 보다는 MS COCO, Open Image가 더 성능 차이가 약간이라도 좋게 나올 가능성이 높습니다.

3. 다른 차이가 있을까요?

=> 성능이 안나오는 모델이 단순한 형태의 오브젝트가 있는 데이터 세트가 아니라 다양한 데이터 세트가 있는 모델로 학습하면 성능이 더 잘나온다는 의미와는 좀 차이가 있습니다. 이것 보다는 단순한 데이터 세트에서 좀 더 오버피팅이 된 성능 결과가 나오지만, 다양한 데이터 세트에서는 상대적으로 덜 오버피팅이 된 결과가 나오기 때문에 이러한 영향이 성능 향상에 더 도움이 될 수 있다는 의미로 생각되었으면 좋을 것 같습니다.

감사합니다.

김강현

dataset 선택에 대하여 질문드립니다.

이 글과 비슷한 Q&A

다중회귀분석과 이원분산분석의 차이를 모르겠어요.

55줄 print() 적는 이유

선생님! 4회기출 작업형1-3 between 질문드립니다~

serializer에서 query문 작성