코딩팡 장업형2 베이스 라인 인코딩 종류 질문
2
작성한 질문수 1
안녕하세요, 코딩팡 장업형2 베이스 라인에서 원-핫 인코딩만 사용하셨는데 인코딩 부분에 아래와 같이 추가해서 레이블 인코딩과 원-핫 인코딩 결과를 비교하는 식으로 해도 상관없나요?
원핫 인코딩만 사용하신 이유가 있을까요??
1번 문제
import pandas as pd
# 1) 데이터 불러오기
train = pd.read_csv('data/car_train.csv')
test = pd.read_csv('data/car_test.csv')
# 2) 범주형 변수 원-핫 인코딩
target = train.pop('target')
print(train.shape, test.shape)
train = pd.get_dummies(train)
test = pd.get_dummies(test)
print(train.shape, test.shape)
# 레이블 인코딩
from sklearn.preprocessing import LabelEncoder
cols = train.select_dtypes(include = 'object').columns
for col in cols:
le = LabelEncoder()
train[col] = le.fit_transform(train[col])
test[col] = le.transform(test[col])
# 3) 검증용 분리 (제출 전 성능 비교)
from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0, stratify=target)
# 4) 세 가지 모델 학습
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=0)
rf.fit(X_tr, y_tr)
pred = rf.predict(X_val)
from sklearn.metrics import f1_score
print(f1_score(y_val, pred, average='macro'))
from lightgbm import LGBMClassifier
lgb = LGBMClassifier(random_state=0, verbose=-1)
lgb.fit(X_tr, y_tr)
pred = lgb.predict(X_val)
print(f1_score(y_val, pred, average='macro'))
from xgboost import XGBClassifier
xgb = XGBClassifier(random_state=0, verbosity=0)
xgb.fit(X_tr, y_tr)
pred = xgb.predict(X_val)
print(f1_score(y_val, pred, average='macro'))
# 5) 선택한 모델을 전체 train으로 다시 학습 후 test 예측 (선택)
# lgb.fit(train, target)
# pred = lgb.predict(test)
# 6) 제출 파일 저장 (pred 컬럼 1개만, index 제거)
result = pd.DataFrame({'pred': pred})
result.to_csv('result.csv', index=False)
# 제출파일 확인
print("\n ===== 제출파일 (샘플) =====")
print(pd.read_csv("result.csv").head())
print("\n ===== 제출파일 (크기 확인) =====")
print(pd.read_csv("result.csv").shape)
답변 1
0
안녕하세요, 인프런 AI 인턴입니다. sjh238님의 질문에 답변드리겠습니다.
코드에서 레이블 인코딩과 원-핫 인코딩 두 가지 방법을 모두 사용하여 비교하는 과정은 문제없습니다. 실제로, 레이블 인코딩과 원-핫 인코딩은 각각의 데이터 특성과 모델 특성에 따라서 성능에 좋은 영향을 미칠 수 있기 때문에 실험해보는 것도 좋은 접근입니다. 하지만 몇 가지 주의가 필요합니다.
- 범주형 데이터 인코딩:
- 원-핫 인코딩: 범주의 수가 많거나, 각 범주가 수치적으로 의미가 없는 경우에 유용합니다. 차원이 매우 높아질 수 있다는 단점이 있지만, 각 범주가 독립적인 특성을 가질 때 유용합니다.
- 레이블 인코딩: 각 범주에 숫자를 부여합니다. 이 방법은 ‘크기’가 의미 있을 때 유용하지만, 크기나 순서가 의미가 없는 범주에서는 잘못된 정보가 모델에 주입될 수 있습니다.
- 원-핫 인코딩: 범주의 수가 많거나, 각 범주가 수치적으로 의미가 없는 경우에 유용합니다. 차원이 매우 높아질 수 있다는 단점이 있지만, 각 범주가 독립적인 특성을 가질 때 유용합니다.
일반적으로 사용자는 원-핫 인코딩을 더 많이 사용하는 경향이 있습니다. 이는 레이블 인코딩이 많지 않은 범주형 변수에 유리하지 않기 때문입니다.
성능 비교 및 선택:
- 지금처럼 두 인코딩 방법을 사용해서 각기 모델링해보고 결과를 비교하는 것은 데이터를 이해하고 최적화하는 데 큰 도움이 됩니다. 최종적으로 더 나은 결과를 보이는 방법을 선택하여 모델링을 진행하면 됩니다.
- 지금처럼 두 인코딩 방법을 사용해서 각기 모델링해보고 결과를 비교하는 것은 데이터를 이해하고 최적화하는 데 큰 도움이 됩니다. 최종적으로 더 나은 결과를 보이는 방법을 선택하여 모델링을 진행하면 됩니다.
컬럼 일치 문제:
- 주의할 점은, 원-핫 인코딩 결과는 학습과 테스트 데이터의 컬럼 개수가 일치해야 한다는 것입니다. 각 데이터셋에 나타나지 않는 범주가 있다면 pd.get_dummies로 인코딩 후 불일치가 발생할 수 있습니다.
- 주의할 점은, 원-핫 인코딩 결과는 학습과 테스트 데이터의 컬럼 개수가 일치해야 한다는 것입니다. 각 데이터셋에 나타나지 않는 범주가 있다면 pd.get_dummies로 인코딩 후 불일치가 발생할 수 있습니다.
질문하신 내용과 관련하여 다음의 유사 답변을 참조하시면 도움이 될 것입니다:
“라벨인코딩과 원핫인코딩 후, 데이터 크기 비교”: 두 방식의 인코딩을 사용하여 학습 데이터와 테스트 데이터의 컬럼 수가 달라질 때 발생하는 문제와 처리 방법에 대해 설명합니다.
“섹션6 모의고사 풀어보기 2 관련”: 원-핫 인코딩을 할 때 모든 수치형 컬럼이 삭제된 경우를 해결하는 방법을 제공합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
로지스틱회귀, 회귀
0
33
2
회귀 문제를 풀때 질문입니다.
0
33
1
불균형 처리 후 성능이 더 낮아졌다면,
0
47
2
실기 체험 제2유형 에러 문의
0
37
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
36
2
3번문제 등분산 가정
0
36
2
작업형3 target 형 변환 질문
0
30
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
23
3
원핫인코딩과 레이블 인코딩에서 concat
0
45
2
제2유형 질문입니다.
0
39
2
C()
0
36
2
작업형 2에서 strafity 적용 유무
0
45
2
수강 기간 연장 가능 여부 문의드립니다.
0
47
1
ols
0
37
2
2유형 작성관련 질문(일반 심화)
0
32
2
2유형 작성관련 질문
0
30
2
2유형 object컬럼 개수 다르면
0
37
2
코딩팡질문이요ㅠㅠ
0
37
2
관찰값과 기대값의 개념이 헷갈립니다.
0
19
2
작업형2 ID 컬럼 삭제 질문
0
40
2
2유형 작성관련 질문
0
27
2
memoryerror 질문
0
22
2
작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?
0
37
1
ID 삭제 필수 인가요?
0
34
3





