inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

원핫인코딩/라벨인코딩 방법 선택

해결된 질문

734

terry2

작성한 질문수 5

0

선생님 안녕하세요, 원핫인코딩과 라벨인코딩 중에서 어떤 것으로 인코딩을 수행할지에 대한 기준이 헷갈려, 질문을 남깁니다.

 

원핫인코딩 시에, train = pd.get_dummies(train) 과 같이 int/float형 데이터와 모두 합쳐서 인코딩을 진행해도 문제가 없나요??

라벨인코딩처럼 object형 컬럼만 추출해서 원핫인코딩을 진행하려고하니 오류가 발생하여 혹시 어떤 문제가 있는건지 궁금합니다!

 

# object 컬럼 원핫/라벨인코딩

cols = train.select_dtypes(include='object').columns
# print(cols)
for col in cols:
  train[col] = pd.get_dummies(train[col])
  test[col] = pd.get_dummies(test[col])

위와 같은 코드를 추가하여 실행하였을 때 아래와 같은 오류가 발생합니다.

 

 

---------------------------------------------------------------------------

ValueError Traceback (most recent call last)

<ipython-input-38-cba2437473af> in <cell line: 23>() 22 # print(cols) 23 for col in cols: ---> 24 train[col] = pd.get_dummies(train[col]) 25 test[col] = pd.get_dummies(test[col]) 26



/usr/local/lib/python3.10/dist-packages/pandas/core/frame.py in _set_item_frame_value(self, key, value) 4098 len_cols = 1 if is_scalar(cols) else len(cols) 4099 if len_cols != len(value.columns): -> 4100 raise ValueError("Columns must be same length as key") 4101 4102 # align right-hand-side columns if self.columns

ValueError: Columns must be same length as key

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

1

퇴근후딴짓

원핫 또는 레벨 인코딩 중에서 편한 것을 사용해주세요:)

한 가지 방법을 우선 연습하고, 여유가 있다면 백업으로 준비하시죠 !!!

작업형2는 최종 csv로만 평가하기에 과정은 상관없습니다.

1

terry2

빠른 답변 정말 감사드립니다!!

선생님 덕분에 그냥 암기식 공부가 아니라, 이해를 기반한 즐거운 공부를 할 수 있어서 너무 기쁩니다. 행복한 하루 되세요 :)

0

퇴근후딴짓

우와 보람차네요!! 피드백 감사합니다.

저는 pooh11933님의 합격을 기원하겠습니다.

0

퇴근후딴짓

train = pd.get_dummies(train) 로 적용하면 자동으로 object컬럼만 인코딩 합니다.

train[col] = pd.get_dummies(train[col])는 잘못된 방법이에요 !! 원핫인코딩하면 컬럼수가 달라지는데 대입할 수가 없는 코드 입니다. 1번 방법을 추천합니다.

만약 2번방법으로 하고자 한다면 pd.get_dummies(train[col]) 결과를 새로운 변수에 담아서 수치형 데이터와 concat하는 방법이 있습니다.

1

terry2

자세히 답변해주셔서 감사합니다! 원핫인코딩/라벨인코딩 을 선택할때, 평가 점수를 배제하고 무조건 한가지로 선택해서 사용해야하는 경우가 있는지 확인하고 싶습니다.

최종 평가 점수를 고려하지 않고, object 데이터를 수치형 데이터로 인코딩 하기 위해 베이스라인으로 코드를 작성한다고할 때, 원핫인코딩과 라벨인코딩 중에서 아무거나 선택하여 진행해도 오류와 같은 문제는 없나요??

원핫인코딩이 object 컬럼을 따로 추출해서 넣지 않아도 된다면 코드작성이 더 간단할 것 같아서 시험환경에서는 한가지 방법으로 우선 최대한 통일하여 진행을 하고 싶어서 질문드립니다!

수업노트가 어디에 있나요?

0

18

1

실기시험 제출관련

0

151

2

6.20 작업형 2 과적합

0

157

3

코딩팡 장업형2 베이스 라인 인코딩 종류 질문

0

48

2

로지스틱회귀, 회귀

0

48

2

회귀 문제를 풀때 질문입니다.

0

55

1

불균형 처리 후 성능이 더 낮아졌다면,

0

61

2

실기 체험 제2유형 에러 문의

0

61

1

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

50

2

3번문제 등분산 가정

0

47

2

작업형3 target 형 변환 질문

0

35

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

36

3

원핫인코딩과 레이블 인코딩에서 concat

0

59

2

제2유형 질문입니다.

0

46

2

C()

0

44

2

작업형 2에서 strafity 적용 유무

0

52

2

수강 기간 연장 가능 여부 문의드립니다.

0

61

1

ols

0

43

2

2유형 작성관련 질문(일반 심화)

0

39

2

2유형 작성관련 질문

0

41

2

2유형 object컬럼 개수 다르면

0

48

2

코딩팡질문이요ㅠㅠ

0

45

2

관찰값과 기대값의 개념이 헷갈립니다.

0

25

2

작업형2 ID 컬럼 삭제 질문

0

45

2