안녕하세요 COCO 데이터셋 annotation 구성에 대해서 궁금한 점이 있습니다

Question

안녕하세요. coco 데이터셋에서 annotation에 있는 순서대로 미니배치가 정해지는 것인가요? 예를 들어 annotation에서 클래스마다 섞여 있는 것이 아니라 1 100개, 2 100개, 3 100개 등으로 순서대로 구성되어 있으면 이것이 순서대로 들어간다면, train에 문제가 생길 수 있는 여지를 주는 것 같아서요 제가 잘못 생각하고 있는 것인가요? 감사합니다

권 철민 · Answer

1 이 아마 '사람(person)' 이라 많을 겁니다. 앞서 말씀 드린 대로 큰 이슈 없습니다. 또 train시에 shuffle로 섞을 수 있습니다.

젓인 · Answer

감사합니다

젓인 · Answer

네 json 파일이 아래와 같이 구성됐을 때입니다 train.json &middot; GitHub category_id가 1,2,3 이렇게 순서대로 반복된 형태입니다. 지금 데이터셋 자체가 1이 굉장히 많고, 숫자가 커질수록 데이터셋 갯수가 줄어들게 됩니다

젓인 · Answer

네 json 파일이 아래와 같이 구성됐을 때입니다 train.json &middot; GitHub

권 철민 · Answer

안녕하십니까, 질문을 제가 제대로 이해했는지 의문입니다만, 예를 들어 annotation에서 클래스마다 섞여 있는 것이 아니라 1 100개, 2 100개, 3 100개 등으로 순서대로 구성되어 있으면 이것이 순서대로 들어간다면, train에 문제가 생길 수 있는 여지를 주는 것 같아서요 => annotation에서 클래스마다 섞여 있지 않나요? 설혹 섞여있지 않아도 성능이 크게 떨어지지는 않지만, train시에 학습 데이터를 섞는 방법이 있습니다. 가령 keras같은 경우 fit()/fit_generator()에 shuffle 인자가 있습니다. 이를 이용하면 iteration 시마다 학습 데이터를 섞어버리기에 별 문제가 되지 않습니다.