인프런 커뮤니티 질문&답변
답변 2
1
권 철민
지식공유자
안녕하십니까,
지니 계수와 지니 불순도(Gini impurity)는 약간 차이가 있는데, 이걸 제가 책에서 지니 계수를 지니 불순도(Gini impurity)와 반대로 연관지어 설명하다 보니 잘못된 설명이 되었습니다.
Decision Tree는 지니 불순도/지니 인덱스를 최소화 되는 조건으로 분할하는 것이 맞습니다.
Decision Tree는 지니 불순도를 최대로 감소시키는 방향으로 분할을 하는데, 이는 지니 이득(정보 이득과 유사하게)을 최대로 증가하는 방향으로 분할을 하는 것입니다. 원래는 이런 의미로 정보 이득과 유사하게 설명하려 했는데, 책에 지니 계수가 높을 수록(1로 갈수록 ) 분할 속성으로 한다고 잘못 기재가 되었습니다(지니 계수 역시 낮은 값으로 분할 되는게 맞습니다)
요약하면 지니 인덱스/지니 불순도가 낮을 수록 좋은 분할 조건이며, 사이킷런의 DecisionTree에서 첫번째 분류된 setosa의 경우 지니 불순도가 0 이 되었습니다.
다시 정리하여 전체 공지 하겠습니다.
0





