custom 데이터셋의 정밀도와 재현율 관련 질문드립니다.

Question

안녕하세요. '딥러닝-컴퓨터비전-완벽가이드'를 수강하고 있는 고준규입니다. 다름이 아니라 정밀도와 재현율에 대해 질문이 있어서 글을 남깁니다.  COCO 데이터셋이나 Pascal VOC 데이터셋과 같이 성능평가로 검증된 데이터셋이 아닌 직접 object detection을 사용하여 문제를 해결하기위해 custom 데이터를 활용하여 데이터 라벨링을 하였습니다.  이 때, 모델의 평가를 진행하였는데, precision score (0.6)가 recall score (0.9)에 비해 낮은 결과를 얻는 것을 확인했습니다. 이를 자체적으로 분석해본 결과, 사람이 직접 라벨링을 하다보니 사람이 놓친 부분을 모델이 탐지하여 precision score가 낮아지는 것을 확인하였고 결론지었습니다. 이럴 경우, custom 데이터셋을 새롭게 수정해서 학습을 시켜야하는 것이 맞는 방법인 것으로 보이나 현실적으로 이를 수정하기에는 비용이 생각보다 많이 들 것 같아서 다른 방법을 생각해보고 있습니다.  혹시 이와 관련되어 조언을 얻을 수 있을까요?

Answer

안녕하십니까,

흥미로운 주제이군요.

질문 내용을 오늘 시간나는대로 고민해 봤는데 먼저 확실한 해결책은 저도 경험해 보지 못했습니다

다만 검색해본 결과 아래와 같이 Active learning에 대한 논문이 있더군요.

1. https://deep-learning-study.tistory.com/732

구현체는 https://github.com/yuantn/MI-AOD 이 있는데 이게 mmdetection과 호환되게 만들었다고 하는 것 같은데 적용해 보지 않아서 잘 모르겠습니다.

2. Recall은 좀 떨어질수 있을것 같은데, IOU를 현재 기준보다 조금 더 높여보면 어떨까 싶습니다.

해당 방법은 함 적용해 보시고, 결과도 공유해 주시면 좋을 것 같습니다 .

jungyuko

custom 데이터셋의 정밀도와 재현율 관련 질문드립니다.

이 글과 비슷한 Q&A

8번문제 groupby로 sum하는 경우

7회 작업형3-1 질문

dt 에러 질문

뒤집은 소수 문제