해결된 질문
작성
·
156
1
안녕하십니까!
지난번 질문에 대한 답변은 너무 고마웠습니다.
colab을 통해서 사용자 dataset을 학습하고 예측 하였을 때 예측이 잘 되지 않았습니다.
annotation에 문제가 있지 않을까 하는 생각에 질문 드립니다.
1. 화질이 선명한 대상만 하나요? (사실 선명하다는게 개인차가 좀 있는것 같더라구요.)
2. 대상의 일부가 가렸졌을 때(다른 대상이나 물체에 의해 가려졌을때, 화면 모서리에서 잘렸을 때, 등) 작업 하나요?
3. 바운딩박스는 대상 영역과 거의 일치해야 하나요? (대상과 여유가 있게 또는 대상이 조금 잘리면 문제가 되나요?)
4. 마지막으로 가장 궁금한 항목입니다.
예를 들어 사람이 작업 대상인데 영상에 사람이 엄청나게 많을 경우 모든 사람을 다 작업을 해야 하나요?
아니면 일부만 해도 상관이 없나요?
(이런 사진이 학습 dataset에 40% 정도)
어떻게 보면 강의와 상관없는 질문처럼 보일 수 있지만 제가 이 부분에 대해 생각을 많이 하고 있습니다.
부탁드립니다.
답변 2
1
안녕하십니까,
심도 있는 질문을 던져 주셨군요.
1. 일반적으로 화질이 선명한 대상을 훈련시켜주면, 화질이 선명하지 않은 데이터도 잘 검출해줍니다. 만일 화질이 선명한 데이터와 선명하지 않은 데이터 중 하나만 선택하라면 선명한 데이터를 선택하는게 좋습니다. 하지만 선명하지 않은 데이터 역시 충분히 학습해주는 것도 좋습니다. 예측할 데이터가 선명할 수도/그렇지 않을 수도 있다면, 선명하지 않은 데이터를 더 추가해 줘서, 학습 데이터 량을 늘리는게 좋습니다.
2. 이건 경우마다 다를것 같습니다. 만일 길거리를 걷는(가로수나, 간판등으로 얼굴이 일부 가릴수 있는 환경) 이미지에서 얼굴을 검출한다면 중요 얼굴 특징을 다 가리지 않는 경우라면(예를 들어, 귀, 머리 일부분, 눈/코/입 부분을 제외한 얼굴 일부분) 훈련 데이터에 포함 시켜주는게 좋습니다. 일반적으로 잘린 이미지를 포함 시킬 것인가 말것인가는 어떤 환경에서 오브젝트 검출을 할것인가를 고려하는 게 좋습니다. 하지만 과도하게 겹치는/또는 잘린 오브젝트(예를 들어 얼굴의 눈/코/입을 가리는)는 포함 시키지 않는게 좋습니다.
3. 정확하게 해주면 좋지만 조금 여유가 있어도 큰 문제는 없습니다. 일반적으로는 IOU 성능 지표 측면에서도 정확하게 적용해 주는게 좋습니다
4. 이 질문은 꽤 심도 있는 질문 이군요. 일반적으로는 사람이 적게 있는 데이터 세트를 훈련데이터로 적용합니다. 이를 이용하면 사람이 많이 있는 오브젝트라도 잘 검출할 수 있습니다.
그런데 사람이 많이 있는 이미지에서 일부 오브젝트만 annotation 했을 때의 효과는 저도 잘 모르겠습니다. 저도 테스트는 해보지 않아서 잘 모르겠지만, 검출 성능이 떨어지지 않을까 생각됩니다. 왜냐하면 CNN 자체는 물체의 강한 형상/특징을 기반으로 이미지 분류를 하는데, 오브젝트 검출 시 Anchor에서 오브젝트라고 찾은 개체가 어떤 경우는 특정 분류값으로 학습이 되고, Anchor에서 찾은 동일한 다른 개체는 특정 분류값으로 학습되지 않는다면, Anchor의 학습 성능이 떨어질 것으로 추정됩니다.
감사합니다.
0