다중분류 평가지표 하나의 값 선택

Question

다중분류 평가지표(f1_score) 에서 문자인 경우 pos_label = ' ' 을 적용해서 검증 자료에 대해 평가 결과를 확인하는데, 이후 test 자료를 저장할때는 문제에서 요구하는 히나의 값을 (A,B,C 중에서 B선택) 고르는게 아니라 pred로 왜 저장해야 하는지 긍금합니다~! 다중분류 평가지표(roc_auc) 에서 0,1,2 중에서 2를 선택해야 할 경우 pred_prob( , pred[ : ,2] ) 이렇게 2를 적용해야 되는것이 맞는지 문의드립니다~!

퇴근후딴짓 · Answer

pos_label = ' '은 이진 분류일 때 설정하는 값입니다. (A,B,C 중에서 B선택) 고르는게 아니라 pred로 왜 저장해야 하는지 긍금합니다~! <- 질문의 이해를 못했어요~ 추가 설명 부탁드릴게요 이럴 경우 전체 확률값을 제출합니다. 다중분류 평가 지표는 전체 확률값을 제출(종류가 3개면 3개의 확률값 제출)해야 하므로 1개 컬럼만 보통 제출받고 있어 가능성이 매우 낮아 보입니다.

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. bobby1994님. 다중분류 문제에서 평가지표를 적용할 때, 여러 가지 헷갈리기 쉬운 부분이 많습니다. 특히, 어떤 클래스를 기준으로 점수를 평가하고 결과를 저장할지에 대한 부분에서 질문을 주셨네요. 다중분류 평가지표 (F1 Score) 에서 pos_label 을 지정하는 것은 이진 분류 경우에 주로 사용되며, 다중분류에서는 각 클래스에 대한 f1-score를 따로 계산 후 평균값을 구할 수 있습니다. 다중분류의 경우, average 매개변수로 지정하여 &lsquo;macro&rsquo;, &lsquo;weighted&rsquo; 등 적절한 평균 방식을 사용할 수 있습니다. 예측 결과를 저장할 때는 개별 클래스의 예측이 아니라 전체 클래스에 대한 예측으로 저장하게 되어, pred 를 사용하여 각 클래스에 대한 예측 결과를 저장합니다. 이는 모델의 전반적인 성능을 평가할 때, 단일 클래스에 집중하지 않고 전체적인 예측 결과를 봐야 하기 때문입니다. 다중분류 평가지표 (ROC-AUC) : ROC-AUC는 이진 분류에서 많이 사용되지만, 다중분류에서는 one-vs-rest (OvR) 방식으로 각 클래스에 대해 개별적으로 계산한 뒤 평균을 내어 사용합니다. predict_proba 함수로 예측 확률을 구하는데, 각 클래스의 확률을 가지고 AUC를 계산합니다. pred_proba[:, 2]와 같은 형식으로 배열에서 특정 클래스를 위한 확률 값을 선택할 수 있으며, 이는 지정한 클래스(예: 클래스 2)의 예측 확률을 사용하여 ROC-AUC를 계산할 때 유용합니다. 관련된 유사한 질문과 답변이 있는 게시물들을 통해 더 자세한 내용을 확인할 수 있습니다: 다중분류 데이터 확률값 질문있습니다!! : 이 게시물에서는 다중분류에서 확률값을 어떻게 다룰지에 대한 예시와 함께 설명되어 있습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.