인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

인프런 커뮤니티 질문&답변

예찬님의 프로필 이미지
예찬

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

평가지표와 피쳐, 정확도

해결된 질문

작성

·

188

0

1. "정확도 평가 지표는 불균형한 레이블 데이터 세트에서는 성능 수치로 사용되서는 안된다" 라고 책 150 페이지에 나와있는데 "불균형한 레이블 데이터 세트"에는 이진분류만 해당하는건가요?
 
2. 평가지표는 레이블 값의 여부로만 따져서 평가하나요? 예를 들어 피처값이 불균형한 데이터로, 레이블 값이 불균형한 데이터가 아닐 경우로 되어 있다면 정확도로 평가를 해도 문제가 없는건가요? 평가는 오로지 레이블 데이터 값의 여부에 따지는 것인지 궁금합니다!

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까, 

1.  여러개의 클래스를 가진 경우에도 적용될 수 있습니다. 예를 들어 A:10, B:1000, C:1000

하지만 많은 경우 이진 분류에서 정확도를 불균일한 데이터 세트의 평가지표로 적용하지 않습니다. 

 

2.  특정 잣대로 딱 정하실 필요는 없습니다. 정확도 평가 지표가 이런 문제점을 가지고 있으니까, 정확도 지표를 적용할 때 반드시 주의해야 한다는 것입니다.  평가를 레이블값의 여부를 가지고 따지실 필요는 없어 보입니다. 

예찬님의 프로필 이미지
예찬
질문자

정확도는 불균형한 데이터 일 때 사용하면  안되는데 불균형한 데이터라는게  레이블값의 여부뿐아니라 피처값(이진분류인 피처) 데이터 여부까지 중요할 수 있다는 건가요? 그렇다면 어떤 평가를 내려야 하는지 결정할 때 중요하게 고려해야 하는 부분이 어떤 요소들이 있을 수 있는지 궁금합니다

권 철민님의 프로필 이미지
권 철민
지식공유자

여기서 언급드리는 불균형한 데이터는 레이블 값만 의미하는 것입니다

예찬님의 프로필 이미지
예찬
질문자

그럼 정확도의 불균형한 데이터가 안된다는게 레이블 값만 해당이 된다는건가요? 위의 답변에서 평가를 레이블 값의 여부를 가지고 따질 필요가 없다는 것은 어떤 뜻인가요?

권 철민님의 프로필 이미지
권 철민
지식공유자

그럼 정확도의 불균형한 데이터가 안된다는게 레이블 값만 해당이 된다는건가요?

=> 네 맞습니다. 

위의 답변에서 평가를 레이블 값의 여부를 가지고 따질 필요가 없다는 것은 어떤 뜻인가요?

=> 위에서 질문하신 "평가는 오로지 레이블 데이터 값의 여부에 따지는 것인지 궁금합니다! " 의 답변입니다. 

특정 잣대로 딱 정하실 필요는 없습니다.

불균형하다는게 30:70 인지, 20:80인지 40:60인지 기준을 정할 수 없으며, 또한 정확도를 사용하지 말라는 누가 정해놓은 규칙이 있는것도 아닙니다. 

정확도 평가 지표가 이런 문제점을 가지고 있으니까, 정확도 지표를 적용할 때 반드시 주의해야 한다는 것이며, 이러한 문제점으로 인하여 일반적으로 불균형한 데이터 세트에서 정확도를 잘 사용하지 않는 다는 것입니다. 

 

예찬님의 프로필 이미지
예찬
질문자

아하 감사합니다 !!

예찬님의 프로필 이미지
예찬

작성한 질문수

질문하기