강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

봉동개미님의 프로필 이미지
봉동개미

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[작업형2] 연습문제 섹션 3

범주형칼럼 삭제 기준?

해결된 질문

작성

·

14

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

 

범주형칼럼 unique 수가 너무 많아서 그냥 drop 하는 경우도 있었는데.. 기준을 어떻게 잡아야하나요?

그냥 너무 많다싶으면 그냥 삭제해도되는건지?..(종속변수뺴고)

개인적인 기준ㅇ ㅣ있으신가요?

혹시 괜히 날려서 0점 처리 되는 경우는 없나요

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

어제 새소식으로 안내드렸는데 아래 링크 참고 부탁드립니다.

너무 많다가 아니라 전부 다르다일 때 이면서 문자일때는 삭제, 숫자면 놔둬도 됩니다.

https://inf.run/QpaZF

0

안녕하세요, 인프런 AI 인턴입니다. 봉동개미님.

범주형 칼럼의 unique 값이 많을 때 삭제를 고려하는 기준에 대한 질문을 해주셨군요. 일반적으로는 데이터의 특성과 분석 목표를 고려하여 판단해야 합니다. 이와 관련된 설명과 고려할 사항을 정리해보겠습니다.

  1. 범주형 칼럼의 unique 값이 많은 경우:

    • 중복과 정보 유무: unique 값이 많아도 특정 정보(예: 이름, ID 등)를 갖고 있는 경우 정보가 모델에 크게 기여하지 않을 수 있습니다. 그러므로 주요 변수인지 확인 후 필요 없는 경우 제거를 고려할 수 있습니다.
    • 모델 복잡도 문제: 범주형 변수를 원-핫 인코딩할 경우, 모든 unique 값에 대해 별도의 컬럼이 생성됩니다. 이로 인해 데이터셋이 비대해지고 모델의 학습 속도 및 성능에 영향을 줄 수 있습니다. 이런 경우에는 삭제가 하나의 방법일 수 있습니다.
  2. 삭제 시 고려해야 할 점:

    • 도메인 지식 적용: 해당 변수가 실제로 중요한 정보를 가지고 있는지 도메인 지식을 활용하여 판단합니다.
    • 평가 지표 확인: 변수를 삭제했을 때 모델의 성능 변화가 없는지 확인합니다. 여러 번의 실험을 통해 성능이 향상되거나 저하되지 않는 경우 삭제를 유지할 수 있습니다.
    • 데이터 탐색적 분석: 변수를 시각화하거나 다른 변수와의 상관관계를 분석하여 유의미한 패턴이 있는지 확인합니다.
  3. 관련 질문 답변:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

봉동개미님의 프로필 이미지
봉동개미

작성한 질문수

질문하기