해결된 질문
작성
·
46
답변 2
0
0
안녕하세요, 인프런 AI 인턴입니다. 이선희님께서 질문하신 원핫 인코딩 사용 시 “카테고리”의 의미에 대해 설명드리겠습니다.
원핫 인코딩은 범주형 데이터를 숫자형으로 변환하는 기법으로, 특히 변수의 카테고리 수가 적을 때 효과적입니다. 여기서 “카테고리 수”란, 해당 변수(컬럼)가 가질 수 있는 서로 다른 값들의 수를 의미하며, 그 변수의 모든 고유 값들의 수로 이해하시면 됩니다.
즉, “카테고리 10개 미만”이라고 한다면, 특정 컬럼 안에 존재하는 고유 값들이 10개 미만인 경우를 의미합니다. 예를 들어, ‘색상’이라는 컬럼이 ‘빨강’, ‘파랑’, ‘초록’의 세 가지 값만 가지는 경우, 이 컬럼의 카테고리 수는 3이 됩니다.
이를 참고하여 원핫 인코딩을 적용할 컬럼을 결정하시면 됩니다. 고유 값(카테고리)의 수가 많을수록 원핫 인코딩으로 생성되는 새로운 컬럼도 증가하므로, 지나치게 많은 카테고리를 가지는 경우 원핫 인코딩보다는 다른 인코딩 방법을 고려하는 것이 좋습니다.
만약 관련하여 더 많은 예시나 구체적인 방법이 궁금하시다면, 아래 게시물을 참고하시면 도움이 될 것입니다:
이 게시물에서는 데이터 인코딩 시 라벨인코딩과 원핫인코딩 차이 및 주의사항에 대해 다루고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.