train 데이터셋 관련

Question

안녕하세요 선생님, 학습하다보니 궁금증이 많이 생기네요^^ 데이터셋을 학습할 때 효율성에 대해 여쭙고 싶은데요, 첫 번째 그림은 한 이미지파일안에 한개의 WBC가 있고, 두 번째 그림은 한 이미지파일안에 두 개의 WBC가 있는데요, WBC를 질 학습하기 위해서 첫 번째 그림 2개와 두 번째 그림 1개와 똑같은 성능을 기대해볼 수 있을까요? 만약 똑같은 성능을 기대해볼 수 있다면, 한 이미지파일에 WBC가 많을 수록 학습 효율이 좋다는 것일까요?

권 철민 · Answer

안녕하십니까, 음, 무척 흥미로운 질문이군요. 먼저, 정량적으로 딱 이게 더 좋은 경우입니다라고 말씀 드리기는 어려울 것 같습니다만, object 갯수가 적은 이미지 보다는 더 많은 object 갯수를 가진 이미지가 더 학습 효율이 좋을 수 있습니다. 일반적으로 현실 상황과 비슷한 이미지의 object 구성이 제일 좋습니다. 그러니까, 보통 이미지를 테스트할 때 한개 object보다는 두개 이상의 object들이 확연히 더 많은 경우라면 두개 이상의 object들이 있는 경우가 더 좋습니다. 그럼에도 불구하고 어떤 이미지 한개가 다른 이미지 두개와 맞먹는 효과를 나타낸다라고 말씀 드리기는 어려울 것 같습니다. 일반적으로 그런식으로 적용하기 보다는 한개의 object가 있는 이미지, 두개의 object가 있는 이미지, 또는 두개 이상의 object가 있는 이미지를 다양하게 만들어서 학습 데이터로 구성하는 게 더 좋다고 생각합니다. 학습 데이터가 많다고 모델이 학습이 잘 되는 게 아닙니다. 학습데이터는 작아도 다양한 유형으로 학습 데이터를 구성하는 것이 더 좋은 결과로 이어질 수 있습니다. 감사합니다.