load_breast_cancer() 데이터

Question

선생님~ 3:32-35쯤에 1이 악성이고 0이 그냥 양성이라고 하셨는데요~ 3:39에 print(dataset.target_names) 해보면 ['malignant', 'benign'] 으로 나오면서 다시, 0이 malignant(악성), 1이 benign (양성)이라고 하시는데.. 0이 악성이고, 1이 양성이 맞는건가요~? (처음에 말씀하신 부분이 잘못 말씀하신건지요~?) 그리고 또 궁금한점이.. 0이 악성이고, 1이 양성이게 되면.. 보통 이진분류에서 중요한 값을 positive에 넣어서 1값이 중요한 값으로 처리한다고 설명하셨었는데.. 기존 sklearn에 내장되어있는 위스콘신유방암 데이터에서는 0을 악성으로 햇네요.. 악성이 더 중요한 값이 아닌가요~? (양성이면 정상이라는 거니깐.. ) 저 데이터에서는 데이터 입력자가 그렇게 넣었겠지만.. 보통 암진단 경우에서는 중요한 값인 악성을 1로 하지요..??

권 철민 · Answer

확인 결과 load_breast_cancer()는 데이터 자체가 malignant가 0 , benign이 1이군요. 일반적으론 제가 말씀드린 대로 검출하고자 하는 중요한 부분을 1로 합니다. 악성 검출이 업무적으로 중요하면 malignant가 1 로 보통 설정합니다. 하지만 load_breast_cancer()는 데이터 자체가 malignant가 0으로 입력 되어 있습니다.