코딩팡 장업형2 베이스 라인 인코딩 종류 질문

Question

안녕하세요, 코딩팡 장업형2 베이스 라인에서 원-핫 인코딩만 사용하셨는데 인코딩 부분에 아래와 같이 추가해서 레이블 인코딩과 원-핫 인코딩 결과를 비교하는 식으로 해도 상관없나요? 원핫 인코딩만 사용하신 이유가 있을까요?? 1번 문제 import pandas as pd # 1) 데이터 불러오기 train = pd.read_csv('data/car_train.csv') test = pd.read_csv('data/car_test.csv') # 2) 범주형 변수 원-핫 인코딩 target = train.pop('target') print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape) # 레이블 인코딩 from sklearn.preprocessing import LabelEncoder cols = train.select_dtypes(include = 'object').columns for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) # 3) 검증용 분리 (제출 전 성능 비교) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0, stratify=target) # 4) 세 가지 모델 학습 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) from sklearn.metrics import f1_score print(f1_score(y_val, pred, average='macro')) from lightgbm import LGBMClassifier lgb = LGBMClassifier(random_state=0, verbose=-1) lgb.fit(X_tr, y_tr) pred = lgb.predict(X_val) print(f1_score(y_val, pred, average='macro')) from xgboost import XGBClassifier xgb = XGBClassifier(random_state=0, verbosity=0) xgb.fit(X_tr, y_tr) pred = xgb.predict(X_val) print(f1_score(y_val, pred, average='macro')) # 5) 선택한 모델을 전체 train으로 다시 학습 후 test 예측 (선택) # lgb.fit(train, target) # pred = lgb.predict(test) # 6) 제출 파일 저장 (pred 컬럼 1개만, index 제거) result = pd.DataFrame({'pred': pred}) result.to_csv('result.csv', index=False) # 제출파일 확인 print("
 ===== 제출파일 (샘플) =====") print(pd.read_csv("result.csv").head()) print("
 ===== 제출파일 (크기 확인) =====") print(pd.read_csv("result.csv").shape)

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. sjh238님의 질문에 답변드리겠습니다. 코드에서 레이블 인코딩과 원-핫 인코딩 두 가지 방법을 모두 사용하여 비교하는 과정은 문제없습니다. 실제로, 레이블 인코딩과 원-핫 인코딩은 각각의 데이터 특성과 모델 특성에 따라서 성능에 좋은 영향을 미칠 수 있기 때문에 실험해보는 것도 좋은 접근입니다. 하지만 몇 가지 주의가 필요합니다. 범주형 데이터 인코딩 : 원-핫 인코딩 : 범주의 수가 많거나, 각 범주가 수치적으로 의미가 없는 경우에 유용합니다. 차원이 매우 높아질 수 있다는 단점이 있지만, 각 범주가 독립적인 특성을 가질 때 유용합니다. 레이블 인코딩 : 각 범주에 숫자를 부여합니다. 이 방법은 &lsquo;크기&rsquo;가 의미 있을 때 유용하지만, 크기나 순서가 의미가 없는 범주에서는 잘못된 정보가 모델에 주입될 수 있습니다. 일반적으로 사용자는 원-핫 인코딩을 더 많이 사용하는 경향이 있습니다. 이는 레이블 인코딩이 많지 않은 범주형 변수에 유리하지 않기 때문입니다. 성능 비교 및 선택 : 지금처럼 두 인코딩 방법을 사용해서 각기 모델링해보고 결과를 비교하는 것은 데이터를 이해하고 최적화하는 데 큰 도움이 됩니다. 최종적으로 더 나은 결과를 보이는 방법을 선택하여 모델링을 진행하면 됩니다. 컬럼 일치 문제 : 주의할 점은, 원-핫 인코딩 결과는 학습과 테스트 데이터의 컬럼 개수가 일치해야 한다는 것입니다. 각 데이터셋에 나타나지 않는 범주가 있다면 pd.get_dummies로 인코딩 후 불일치가 발생할 수 있습니다. 질문하신 내용과 관련하여 다음의 유사 답변을 참조하시면 도움이 될 것입니다: &ldquo;라벨인코딩과 원핫인코딩 후, 데이터 크기 비교&rdquo; : 두 방식의 인코딩을 사용하여 학습 데이터와 테스트 데이터의 컬럼 수가 달라질 때 발생하는 문제와 처리 방법에 대해 설명합니다. &ldquo;섹션6 모의고사 풀어보기 2 관련&rdquo; : 원-핫 인코딩을 할 때 모든 수치형 컬럼이 삭제된 경우를 해결하는 방법을 제공합니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.