inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

기출(작업형2) 한 가지 방법으로 풀기

범주형 변수의 범주가 다를 경우

해결된 질문

107

reverq

작성한 질문수 12

0

train과 test의 범주형 변수 중에서 동일한 변수이지만 범주의 수가 다를 경우, 어떻게 해결해야하나요?

 

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

꿀팁 섹션 - 인코딩 할 때 에러가 난다면? 영상 확인 부탁드립니다.

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

reverq님, 질문해 주신 범주형 변수의 범주 수 차이에 대한 해결 방법에 대해 안내드리겠습니다. 실제로 train과 test 데이터셋 간의 범주형 변수에서 범주의 수가 다를 경우, 모델의 입력 형식이 맞지 않아 예측 과정에서 문제가 발생할 수 있습니다. 이러한 경우에는 다음과 같은 방법들을 적용할 수 있습니다.

범주형 변수 범주 차이 해결 방법

  1. 데이터 통합 후 인코딩 및 분리:
    • 두 데이터셋을 하나로 병합한 후 원핫인코딩을 진행한 다음, 다시 train과 test로 분리하는 방식입니다. 이렇게 하면 동일한 범주 셋이 유지됩니다.
   # 데이터 통합
   combined = pd.concat([train, test])
   # 원핫인코딩 진행
   combined_encoded = pd.get_dummies(combined)

   # 다시 split
   train_encoded = combined_encoded.iloc[:len(train)]
   test_encoded = combined_encoded.iloc[len(train):]
  1. 공통 컬럼 유지:
    • 인코딩 후 train과 test 모두 공통적으로 존재하는 컬럼만 남기고 나머지를 제거합니다. 이 방법을 사용하면 공통된 입력 형식이 보장됩니다.
   train_encoded, test_encoded = train_encoded.align(test_encoded, join='inner', axis=1)
  1. 카테고리 직접 맞추기:
    • 특정 컬럼에 대해 미리 두 데이터셋에서 나타날 수 있는 모든 범주를 알고 있는 경우, 이를 기준으로 인코딩할 수도 있습니다.

이러한 방법들은 두 데이터셋이 일관된 입력을 정확히 받을 수 있도록 보장해 주며, 이를 통해 모델의 성능을 저하시킬 수 있는 데이터 불일치를 피할 수 있습니다.

참고 웹페이지

입력 데이터의 준비 단계에서 문제가 발생할 수 있는 부분을 명확히 이해하고, 이를 해결한 후에 모델링을 진행하시는 것이 중요합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

수강 기간 연장 가능 여부 문의드립니다.

0

4

1

ols

0

3

1

2유형 작성관련 질문(일반 심화)

0

11

1

2유형 작성관련 질문

0

9

1

2유형 object컬럼 개수 다르면

0

10

1

코딩팡질문이요ㅠㅠ

0

13

1

관찰값과 기대값의 개념이 헷갈립니다.

0

11

1

작업형2 ID 컬럼 삭제 질문

0

20

2

2유형 작성관련 질문

0

10

1

memoryerror 질문

0

12

1

작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?

0

13

0

ID 삭제 필수 인가요?

0

17

3

7회 기출문제 작업형1번 df 변환 후 저장되는 방식 질문

0

13

1

3 유형 귀무가설, 대립가설

0

19

2

인코딩 관련 질문 있습니다

0

21

2

작업형3 이원분산분석 sm에서불러오기 / anova_lm 차이

0

21

2

2유형 원핫인코딩 오류

0

22

2

시험장에서 주석 단축키 안될 때 많나요?

0

26

2

라벨인코딩 방식

0

24

2

test 재학습 관련

0

15

2

target 빈도 확인

0

17

2

작업형 2 연습문제 섹션 6

0

20

2

F1-score

0

19

2

작업형 2번 섹션 3

0

18

2