균일도와 불균일 데이터..

Question

제가 이해한 것이 맞는지 질문드리고 싶습니다.불균일 데이터 (imbalanced data)(a) 10000개의 데이터 중에서 100개 정도만 다른 데이터라면 imbalanced 데이터이며(b) 5000개 5000개로 나뉘어있으면 balanced 데이터인 것이 맞나요?균일도가 낮은 것과 균일한 데이터는 상관이 없는건가요?4장 첫 번째 강의에서 하얀색과 검은색 데이터가 섞여있으면 균일도가 낮다고 하셨는데 1번 질문의 (b) 예시가 맞다면 데이터가 반반 나뉘어져 있는 경우 균일한(balanced) 데이터가 되는데, 이 경우는 균일한 데이터이면서 균일도가 낮다고 볼 수 있을까요?정보이득지수와 지니계수둘의 차이를 검색하다가 알게 된 것인데요. 둘의 공통점은 균일도가 높은 것 기준으로 분류하는 것이고지니계수는 balanced 데이터, 정보이득지수는 imbalanced 데이터의 경우 선호된다..는 것이 맞을까요?질문이 길어서 죄송합니다.감사합니다.

Answer

안녕하십니까,

질문이 길다니요, 절대 아닙니다. 질문은 언제나 환영입니다.

제가 설명드린 균일도는 혼잡도라고 생각하셔도 될 것 같습니다. 원래 책 쓸때도 혼잡도라고 할까 고민하다가 균일도가 보다 직관적일 것 같아서 그렇게 표현했습니다.

이 균일도/혼잡도는 데이터가 얼마나 다양하고 많은 유형으로 구성되어 있는가를 지수로 나타낸것입니다. 균일도가 낮고, 혼잡도가 높을 수록 데이터가 다양하고 많은 유형으로 구성되어 있습니다.

근데 데이터의 균일도와 imbalanced data와 같은 데이트의 불균형이 좀 헷갈리게 이해될 수 있는 측면이 있는 것 같습니다.

균일도/혼잡도는 데이터가 얼마나 동일하게 또는 혼잡하게 분포 되어 있는가를 지칭하는 반면에 imbalanced는 전체 데이터중에 특정 데이터가 너무 비율이 작거나 또는 너무 크게 있는 경우를 의미 합니다.

이런 차이때문에 좀 헷갈리신 부분이 있었던것 같습니다.

1. imbalanced data는 앞에 말씀드린 대로 균일 개념 보다는 균형의 개념으로 보시면 좋을 것 같습니다.

2. 이 부분도 균일과 균형 개념이 혼재 되어서 질문 주신것 같습니다.

반반이 섞여 있으면, 균형 잡힌 데이터 이지만, 균일하지는 않아서 균일도는 낮다고 생각하시면 좋을 것 같습니다.

3. 일반적으로 정보의 혼잡도를 엔트로피로가 하는데 정보이득지수는 1 - 엔트로피 이므로 혼잡하지 않고 균일하면 정보이득 지수가 높게 됩니다.

지니 계수 역시 개념 자체는 비슷한데, 공식이 다르고 데이터가 균일하면, 정보이득 지수와 다르게 지니 계수가 낮아지게 됩니다.

감사합니다.

ABC

균일도와 불균일 데이터..

이 글과 비슷한 Q&A

colab 환경에서 Autoencoder 구현하였으나 결과가 보이지 않는 분들 참고사항

3회 기출문제 작업형 2 인코딩

핸드폰으로는 못보나요?

LightGBM의 min_child_samples 와 min_child_weight