작성
·
233
답변 2
0
안녕하세요. 소확성입니다!
불균형 데이터를 그대로 사용하여 모델링할 경우,
모델이 소수 클래스에 대해 제대로 학습하지 못하고 다수 클래스에만 치우쳐서 학습하게 되어
모델의 정확도가 떨어지게 될 수 있습니다.
문의하신 내용은 불균형 데이터의 문제점에 대한 내용인데요,
만약, 분포가 불균형한 상태 그대로 예측을 하게 된다면,
과적합(over-fitting) 문제가 발생할 수 있습니다.
모델은 분포도가 높은 클래스, 즉 가중치가 높은 클래스를 더 예측하려고 하기 때문에
Accuracy는 높아질 수 있지만, 분포가 작은 클래스에 대한 정밀도가 낮고
재현율 또한 낮아지는 문제가 발생할 수 있습니다.
답변이 학습에 도움이 되길 바라겠습니다.
감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
Hongjin님께서 문의하신 내용에 답변드립니다.
강의 내용에 따르면, 불균형 데이터를 그대로 사용할 경우에는 모델의 정확도가 떨어질 수 있습니다. 그 이유는 모델이 다수의 클래스에 치우쳐 예측하는 경향이 있기 때문입니다. 이 상황에서 정확도는 높게 나타날 수 있으나, 소수 클래스에 대한 예측 성능이 떨어져 재현율은 낮아지게 됩니다.
즉, 불균형 데이터 상황에서 ‘정확도’는 전체 데이터 중 올바르게 예측된 데이터의 비율을 나타내지만, ‘재현율’은 실제로 중요한 소수 클래스의 데이터 중 모델이 올바르게 예측한 데이터의 비율을 나타내기 때문에, 이 두 메트릭 간에는 트레이드오프(trade-off) 관계가 있을 수 있습니다.
따라서, 불균형 데이터를 모델링할 때는 정확도만을 기준으로 모델 성능을 평가하지 않고 재현율이나 정밀도(precision) 같은 다른 성능 지표도 함께 고려해야 합니다.
더 자세한 내용이나 혼란스러운 점이 있다면 해당 강의의 ‘문의하기’ 기능을 통해 강사님께 직접 문의하여 보다 명확한 답변을 받으실 것을 권장드립니다.
도움이 되었기를 바랍니다. 감사합니다.