inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

2회 기출유형(작업형2)

레이블 인코딩 오류가 떳나 안떳다 해요

해결된 질문

102

jcol13

작성한 질문수 8

0

image.png

이 오류가 뜨는데, 코딩에는 문제가 없어서 앞에서 부터 다시 실행하면 오류 안뜨다가 다시 재 실행하면 뜨다가 합니다...

 

선생님 해주신 그대로 따라하면서 공부하고 있기 때문에 틀린 부분은 없습니다.

또한 똑같은 코딩을 실행해도 어떨땐 되고 어떨땐 안되서 난감합니다. 어떻게 해야 할까요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

  1. 런타임 - 모두실행

  1. 또는 모든 코드를 한 셀이 진행해 보시겠어요?

됐다 안됐다하는 것은 특정셀이 두번 세번 실행되거나 순서가 달라지면서 발생하는 문제입니다.

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

jcol13님이 작성하신 코드에서 발생하는 문제는 LabelEncoder를 사용하여 레이블 인코딩을 진행할 때, 훈련 데이터와 테스트 데이터 간에 일관성이 없을 경우 발생할 수 있는 흔한 오류입니다. 특히, 훈련 데이터에는 없는 새로운 카테고리가 테스트 데이터에 포함된 경우에 오류가 발생할 수 있습니다.

문제 발생 원인

  • LabelEncoder는 훈련 데이터에만 맞춰 학습하게 되며, 테스트 데이터에 새로운 범주가 나타나면 설정된 범주 외부의 값으로 간주하여 오류가 발생합니다. 예를 들어, 훈련 데이터에는 ‘Gender’ 컬럼이 ‘Male’, ‘Female’ 두 종류였지만, 테스트 데이터에 ‘Other’라는 새로운 값이 포함되는 경우입니다.

해결 방법

  1. 훈련 및 테스트 데이터 합병 후 인코딩: 일단 훈련 데이터와 테스트 데이터를 합쳐서 LabelEncoder로 먼저 접근하게 하고, 이후 다시 데이터를 분리하는 방법을 사용할 수 있습니다. 이는 모든 데이터를 포함하는 일관된 인코딩을 보장합니다.
   import pandas as pd
   from sklearn.preprocessing import LabelEncoder

   # 훈련 및 테스트 데이터 병합
   total_data = pd.concat([X_train, X_test], axis=0)
   
   # 모든 데이터에 대해 레이블 인코딩 적용
   cols = ['Warehouse_block', 'Mode_of_Shipment', 'Product_importance', 'Gender']
   for col in cols:
       le = LabelEncoder()
       total_data[col] = le.fit_transform(total_data[col].astype(str))
   
   # 다시 훈련 및 테스트 데이터로 분리
   X_train = total_data.iloc[:len(X_train)]
   X_test = total_data.iloc[len(X_train):]
  1. 새로운 카테고리 처리: 인코더를 학습한 후, 테스트 데이터에 새로운 카테고리가 나타날 수 있는 여부를 미리 검증하고, 그럴 경우 어떻게 처리할지 방안을 마련해야 합니다.

  2. 문제 발생 시 순차적 접근: 코드 실행 순서, 데이터 로딩 상태 등을 꼼꼼히 확인합니다. 레이블 인코딩을 왜곡하여 재실행할 때 결과들이 다르게 나타나는 경우, 이전 코드 셀들이 올바르지 않게 실행될 수 있습니다.

관련된 질문의 URL은 다음과 같습니다:
- 작업형 2번 라벨인코딩 질문
- 레이블 인코딩 오류가 떳나 안떳다 해요

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

작업형 1 유형 부분

0

9

1

작업형 1 (삭제예정, 구 버전)

0

28

2

수강기간 연장 문의드립니다.

0

20

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

21

3

수강기간 연장 문의드립니다.

0

26

1

인덱스 슬라이싱

0

27

2

질문 드립니다.

0

45

2

강의 내용 관련 질문드립니다~

0

43

2

수강 연장 문의

0

54

2

강의자료 일괄 다운로드

0

49

2

수강기간 연장 문의드립니다

0

40

2

list 문제 질문드립니다~

0

34

2

빅분기 실기 12회 재도전

0

52

2

강의 기간 연장 가능여부 검토 요청건

0

39

2

수강기간 연장 문의 드립니다

0

43

2

수강기간 연장 문의드립니다

0

50

2

질문이요

0

55

2

수강기간 연장 문의드립니다.

0

58

2

문제 3-2 질문드립니다

0

47

2

수강기간 연장 문의 드립니다.

0

61

2

변수, 칼럼 , df 구분

0

51

2

수강기간 연장 문의드립니다.

0

50

2

수강기간 연장 문의

0

49

2

수강기간 연장 문의드립니다.

0

42

2