• 카테고리

    질문 & 답변
  • 세부 분야

    자격증 (데이터 사이언스)

  • 해결 여부

    해결됨

[MOCK EXAM] T2. EXAM template-캐글 모의고사

24.05.09 12:21 작성 24.05.09 14:25 수정 조회수 61

0

강사님 안녕하세요 🙂

kaggle에 올려주신 모의 고사 문제 풀이 중인데 모의고사 문제 작업형2에서 RandomForestClassifier로 진행하여 예측 csv를 만들었지만 다른 방법도 시도해보고자 XGBoost도 실행해보니 오류가 뜨더라구요 이 문제에서는 XGBoost 모델링이 힘든건가 하여 질문드려요 😢

# XGBoost(오류)

from xgboost import XGBClassifier

xgb = XGBClassifier()

xgb.fit(X_tr,y_tr)

pred = xgb.predict_proba(X_val)[:,1]

roc_auc_score(y_val,pred)

답변 1

답변을 작성해보세요.

1

xgboost가 좀 예민해요

오류 명으로 봐서는 컬러명에 특수 문자를 포함하고 있어서 그런 것 같네요~!

부스팅 계열 중에 좀 덜 예민한 lightgbm을 추천합니다!

# 컬럼명 변경 예시코드
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})

df = df.rename(columns={'A': 'Col_1', 'B': 'Col_2', 'C': 'Col_3'})
print(df)

lightgbm 코드

####### 분류  #######
import lightgbm as lgb
model = lgb.LGBMClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
# y_pred = model.predict_proba(X_test) #평가기준 roc-auc일 때


####### 회귀  #######
import lightgbm as lgb
model = lgb.LGBMRegressor()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)