강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

허귀석님의 프로필 이미지
허귀석

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

시각화를 통한 결정 트리 모델의 구조 이해

지니계수

작성

·

229

3

처음 분류된 setosa의 경우 균질도가 100% 이니 지니계수가 1 아닌가요? 왜 0 인지요?

답변 2

1

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까, 

지니 계수와 지니 불순도(Gini impurity)는 약간 차이가 있는데, 이걸 제가 책에서 지니 계수를 지니 불순도(Gini impurity)와 반대로 연관지어 설명하다 보니 잘못된 설명이 되었습니다.

Decision Tree는 지니 불순도/지니 인덱스를 최소화 되는 조건으로 분할하는 것이 맞습니다.

Decision Tree는 지니 불순도를 최대로 감소시키는 방향으로 분할을 하는데, 이는 지니 이득(정보 이득과 유사하게)을 최대로 증가하는 방향으로 분할을 하는 것입니다. 원래는 이런 의미로 정보 이득과 유사하게 설명하려 했는데, 책에 지니 계수가 높을 수록(1로 갈수록 ) 분할 속성으로 한다고 잘못 기재가 되었습니다(지니 계수 역시 낮은 값으로 분할 되는게 맞습니다)

요약하면 지니 인덱스/지니 불순도가 낮을 수록 좋은 분할 조건이며, 사이킷런의 DecisionTree에서 첫번째 분류된 setosa의 경우 지니 불순도가 0 이 되었습니다.

다시 정리하여 전체 공지 하겠습니다.

0

허귀석님의 프로필 이미지
허귀석
질문자

네 감사합니다.

허귀석님의 프로필 이미지
허귀석

작성한 질문수

질문하기