inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[작업형2] 연습문제 섹션 3

범주형칼럼 삭제 기준?

해결된 질문

56

봉동개미

작성한 질문수 22

0

 

범주형칼럼 unique 수가 너무 많아서 그냥 drop 하는 경우도 있었는데.. 기준을 어떻게 잡아야하나요?

그냥 너무 많다싶으면 그냥 삭제해도되는건지?..(종속변수뺴고)

개인적인 기준ㅇ ㅣ있으신가요?

혹시 괜히 날려서 0점 처리 되는 경우는 없나요

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

어제 새소식으로 안내드렸는데 아래 링크 참고 부탁드립니다.

너무 많다가 아니라 전부 다르다일 때 이면서 문자일때는 삭제, 숫자면 놔둬도 됩니다.

https://inf.run/QpaZF

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 봉동개미님.

범주형 칼럼의 unique 값이 많을 때 삭제를 고려하는 기준에 대한 질문을 해주셨군요. 일반적으로는 데이터의 특성과 분석 목표를 고려하여 판단해야 합니다. 이와 관련된 설명과 고려할 사항을 정리해보겠습니다.

  1. 범주형 칼럼의 unique 값이 많은 경우:

    • 중복과 정보 유무: unique 값이 많아도 특정 정보(예: 이름, ID 등)를 갖고 있는 경우 정보가 모델에 크게 기여하지 않을 수 있습니다. 그러므로 주요 변수인지 확인 후 필요 없는 경우 제거를 고려할 수 있습니다.
    • 모델 복잡도 문제: 범주형 변수를 원-핫 인코딩할 경우, 모든 unique 값에 대해 별도의 컬럼이 생성됩니다. 이로 인해 데이터셋이 비대해지고 모델의 학습 속도 및 성능에 영향을 줄 수 있습니다. 이런 경우에는 삭제가 하나의 방법일 수 있습니다.
  2. 삭제 시 고려해야 할 점:

    • 도메인 지식 적용: 해당 변수가 실제로 중요한 정보를 가지고 있는지 도메인 지식을 활용하여 판단합니다.
    • 평가 지표 확인: 변수를 삭제했을 때 모델의 성능 변화가 없는지 확인합니다. 여러 번의 실험을 통해 성능이 향상되거나 저하되지 않는 경우 삭제를 유지할 수 있습니다.
    • 데이터 탐색적 분석: 변수를 시각화하거나 다른 변수와의 상관관계를 분석하여 유의미한 패턴이 있는지 확인합니다.
  3. 관련 질문 답변:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

작업형 1 배경지식 질문

0

2

1

옳게 풀은건지 질문드립니다!

0

3

0

roc_auc_score

0

5

1

추가질문 합니다

0

11

1

시험환경 구름

0

11

1

2유형 질문드려요

0

8

1

RandomForest vs lgb

0

18

1

전처리 관련질문

0

13

2

작업형3 기출

0

13

1

유형2에서 데이터분할 생략 가능여부

0

20

2

9회 기출 유형3 질문

0

15

1

lgb 기초편

0

10

1

괄호 사용

0

15

1

작업형 2 데이터 전처리 질문

0

19

1

11회 기출 유형 작업형1 문제 3-1

0

16

0

예시문제 작업형2 (ver2023) 질문입니다

0

16

1

Data type에 따른 처리

0

15

2

데이터 전처리 관련

0

16

2

시험에서 문제 불러오기

0

18

2

2번문제 출력값 질문

0

23

2

pd.get_dummies()가 bool로 반환

0

18

2

대응표본검정 레빈

0

23

3

단일표본검정 문제 유형

0

23

2

[작업형 3] 6~7. 카이제곱 검정

0

23

2