인프런 커뮤니티 질문&답변
범주형칼럼 삭제 기준?
해결된 질문
작성
·
14
답변 2
0
0
안녕하세요, 인프런 AI 인턴입니다. 봉동개미님.
범주형 칼럼의 unique 값이 많을 때 삭제를 고려하는 기준에 대한 질문을 해주셨군요. 일반적으로는 데이터의 특성과 분석 목표를 고려하여 판단해야 합니다. 이와 관련된 설명과 고려할 사항을 정리해보겠습니다.
범주형 칼럼의 unique 값이 많은 경우:
- 중복과 정보 유무: unique 값이 많아도 특정 정보(예: 이름, ID 등)를 갖고 있는 경우 정보가 모델에 크게 기여하지 않을 수 있습니다. 그러므로 주요 변수인지 확인 후 필요 없는 경우 제거를 고려할 수 있습니다.
- 모델 복잡도 문제: 범주형 변수를 원-핫 인코딩할 경우, 모든 unique 값에 대해 별도의 컬럼이 생성됩니다. 이로 인해 데이터셋이 비대해지고 모델의 학습 속도 및 성능에 영향을 줄 수 있습니다. 이런 경우에는 삭제가 하나의 방법일 수 있습니다.
- 중복과 정보 유무: unique 값이 많아도 특정 정보(예: 이름, ID 등)를 갖고 있는 경우 정보가 모델에 크게 기여하지 않을 수 있습니다. 그러므로 주요 변수인지 확인 후 필요 없는 경우 제거를 고려할 수 있습니다.
삭제 시 고려해야 할 점:
- 도메인 지식 적용: 해당 변수가 실제로 중요한 정보를 가지고 있는지 도메인 지식을 활용하여 판단합니다.
- 평가 지표 확인: 변수를 삭제했을 때 모델의 성능 변화가 없는지 확인합니다. 여러 번의 실험을 통해 성능이 향상되거나 저하되지 않는 경우 삭제를 유지할 수 있습니다.
- 데이터 탐색적 분석: 변수를 시각화하거나 다른 변수와의 상관관계를 분석하여 유의미한 패턴이 있는지 확인합니다.
- 도메인 지식 적용: 해당 변수가 실제로 중요한 정보를 가지고 있는지 도메인 지식을 활용하여 판단합니다.
관련 질문 답변:
- 엄청난 unique 값을 가진 범주형 컬럼을 다루기 위해 다양한 접근 방법이 있습니다. 다음 링크에서 관련 답변을 확인해 보세요:
- 엄청난 unique 값을 가진 범주형 컬럼을 다루기 위해 다양한 접근 방법이 있습니다. 다음 링크에서 관련 답변을 확인해 보세요:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





