원핫인코딩/라벨인코딩 방법 선택
선생님 안녕하세요, 원핫인코딩과 라벨인코딩 중에서 어떤 것으로 인코딩을 수행할지에 대한 기준이 헷갈려, 질문을 남깁니다.
원핫인코딩 시에, train = pd.get_dummies(train) 과 같이 int/float형 데이터와 모두 합쳐서 인코딩을 진행해도 문제가 없나요??
라벨인코딩처럼 object형 컬럼만 추출해서 원핫인코딩을 진행하려고하니 오류가 발생하여 혹시 어떤 문제가 있는건지 궁금합니다!
# object 컬럼 원핫/라벨인코딩
cols = train.select_dtypes(include='object').columns
# print(cols)
for col in cols:
train[col] = pd.get_dummies(train[col])
test[col] = pd.get_dummies(test[col])위와 같은 코드를 추가하여 실행하였을 때 아래와 같은 오류가 발생합니다.
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-38-cba2437473af> in <cell line: 23>() 22 # print(cols) 23 for col in cols: ---> 24 train[col] = pd.get_dummies(train[col]) 25 test[col] = pd.get_dummies(test[col]) 26
/usr/local/lib/python3.10/dist-packages/pandas/core/frame.py in _set_item_frame_value(self, key, value) 4098 len_cols = 1 if is_scalar(cols) else len(cols) 4099 if len_cols != len(value.columns): -> 4100 raise ValueError("Columns must be same length as key") 4101 4102 # align right-hand-side columns if self.columns
ValueError: Columns must be same length as key
답변 2
1
원핫 또는 레벨 인코딩 중에서 편한 것을 사용해주세요:)
한 가지 방법을 우선 연습하고, 여유가 있다면 백업으로 준비하시죠 !!!
작업형2는 최종 csv로만 평가하기에 과정은 상관없습니다.
0
train = pd.get_dummies(train) 로 적용하면 자동으로 object컬럼만 인코딩 합니다.
train[col] = pd.get_dummies(train[col])는 잘못된 방법이에요 !! 원핫인코딩하면 컬럼수가 달라지는데 대입할 수가 없는 코드 입니다. 1번 방법을 추천합니다.
만약 2번방법으로 하고자 한다면 pd.get_dummies(train[col]) 결과를 새로운 변수에 담아서 수치형 데이터와 concat하는 방법이 있습니다.
1
자세히 답변해주셔서 감사합니다! 원핫인코딩/라벨인코딩 을 선택할때, 평가 점수를 배제하고 무조건 한가지로 선택해서 사용해야하는 경우가 있는지 확인하고 싶습니다.
최종 평가 점수를 고려하지 않고, object 데이터를 수치형 데이터로 인코딩 하기 위해 베이스라인으로 코드를 작성한다고할 때, 원핫인코딩과 라벨인코딩 중에서 아무거나 선택하여 진행해도 오류와 같은 문제는 없나요??
원핫인코딩이 object 컬럼을 따로 추출해서 넣지 않아도 된다면 코드작성이 더 간단할 것 같아서 시험환경에서는 한가지 방법으로 우선 최대한 통일하여 진행을 하고 싶어서 질문드립니다!
평가지표 F1 스코어 질문드립니다.
0
9
2
작업형 2 기출7회분에서
0
23
2
작업형2 모의문제1 (30강)
0
25
2
수강 기간 연장 문의 드립니다.
0
31
2
수강 계획과 관련해 문의 드립니다.
0
26
2
작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?
0
49
2
작업형 1 -연습문제 4-6
0
35
2
작업형 1 유형 부분
0
42
2
작업형 1 (삭제예정, 구 버전)
0
51
2
수강기간 연장 문의드립니다.
0
37
2
2유형 레이블 인코딩 VS 원핫 인코딩
0
37
3
수강기간 연장 문의드립니다.
0
44
2
인덱스 슬라이싱
0
36
2
질문 드립니다.
0
50
2
강의 내용 관련 질문드립니다~
0
46
2
수강 연장 문의
0
63
2
강의자료 일괄 다운로드
0
58
2
수강기간 연장 문의드립니다
0
48
2
list 문제 질문드립니다~
0
38
2
빅분기 실기 12회 재도전
0
63
2
강의 기간 연장 가능여부 검토 요청건
0
51
2
수강기간 연장 문의 드립니다
0
46
2
수강기간 연장 문의드립니다
0
52
2
질문이요
0
57
2





