인프런 커뮤니티 질문&답변
load_breast_cancer() 데이터
작성
·
238
0
선생님~ 3:32-35쯤에
1이 악성이고 0이 그냥 양성이라고 하셨는데요~
3:39에
print(dataset.target_names) 해보면
['malignant', 'benign'] 으로 나오면서
다시, 0이 malignant(악성), 1이 benign (양성)이라고 하시는데..
0이 악성이고, 1이 양성이 맞는건가요~?
(처음에 말씀하신 부분이 잘못 말씀하신건지요~?)
그리고 또 궁금한점이..
0이 악성이고, 1이 양성이게 되면..
보통 이진분류에서 중요한 값을 positive에 넣어서 1값이 중요한 값으로 처리한다고 설명하셨었는데..
기존 sklearn에 내장되어있는 위스콘신유방암 데이터에서는 0을 악성으로 햇네요..
악성이 더 중요한 값이 아닌가요~? (양성이면 정상이라는 거니깐.. )
저 데이터에서는 데이터 입력자가 그렇게 넣었겠지만..
보통 암진단 경우에서는 중요한 값인 악성을 1로 하지요..??
퀴즈
결정 트리(Decision Tree) 모델이 데이터를 분할(Split)할 때 사용하는 주요 기준 지표로 가장 적절한 것은 무엇일까요?
평균 제곱 오차 (Mean Squared Error)
정보 이득 (Information Gain) 또는 지니 계수 (Gini Coefficient)
회귀 계수 (Regression Coefficient)
주성분 (Principal Component)
답변 1
0
확인 결과 load_breast_cancer()는 데이터 자체가 malignant가 0 , benign이 1이군요.
일반적으론 제가 말씀드린 대로 검출하고자 하는 중요한 부분을 1로 합니다. 악성 검출이 업무적으로 중요하면 malignant가 1 로 보통 설정합니다.
하지만 load_breast_cancer()는 데이터 자체가 malignant가 0으로 입력 되어 있습니다.





