인프런 커뮤니티 질문&답변

작성자 없음

작성자 정보가 삭제된 글입니다.

[개정판] 파이썬 머신러닝 완벽 가이드

회귀 실습 1: 자전거 대여(공유) 수요 예측 - 02

생성한 예측모델로부터 최적 조건을 구하는 방법이 있을까요?

작성

287

안녕하세요 선생님, 강의를 보던 중 질문이 있어 이렇게 글 남깁니다.

1. 회귀 실습에서 여러 가지 모델로 성능을 측정해 보았습니다. 각각의 방법에서, MAE, MSE 등의 지표로 모델의 정확도를 측정합니다.

그런데 혹시, 이렇게 만든 모델들을 이용해서, 최고의 결과를 도출하는 지표들을 역으로 얻어내는 방법이 있을까요?

가령, XGBoost로 자전거 대여에 관한 모델 A을 만들었다고 가정해보겠습니다. 이 모델 A가 "B대 만큼의 자전거 대여량" 이 존재할 수 있다고 예측하였다고 한다면, 이 B를 도출해 내는 조건 C (여기엔 train input으로 주어졌던 holiday, workingday, weather, temp 등의 값이 들어있을 것으로 생각합니다.) 를 구해낼 수 있을까요?

만약 가능하다면, scikit-learn 이나 XGboost 등의 framework에서 내장함수가 존재하는지 알고 싶습니다.(구글링을 열심히 해 보았는데 관련 내용을 찾지 못하였습니다. 심지어 이렇게 조건들을 역으로 도출해내는 과정을 어떻게 부르는지 조차 모르겠습니다ㅠ)

2. 로컬에서, bike sharing demand 예제의 마지막 쉘에서 XGboost의 문제인지 쉘이 작동하지 않습니다. 버전에 따라 ndarray로 바꾸라는 말씀을 해주셔서 다음과 같이 코드를 고쳐보았지만, 실행되지 않습니다.

실습환경은 m1 mac, miniforge3 (m1에 anaconda가 호환되지 않을 때 설정한 환경이라 miniforge3를 이용중입니다.), python=3.9, numpy=1.22.3, pandas=1.4.2, xgboost=1.6.0 (1.5.x, 1.6.1 모두 작동하지 않았습니다.) 입니다.

혹시 제가 ndarray로 변환하라는 말씀을 제가 잘못 이해한것인지, 아니면 xgboost의 문제인건지 궁금합니다.

</>

from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor

# 랜덤 포레스트, GBM, XGBoost, LightGBM model 별로 평가 수행
rf_reg = RandomForestRegressor(n_estimators=500, verbose=10)
gbm_reg = GradientBoostingRegressor(n_estimators=500, verbose=1)
xgb_reg = XGBRegressor(n_estimators=500, verbose=0)
lgbm_reg = LGBMRegressor(n_estimators=500, verbose=1)

for model in [rf_reg, gbm_reg, xgb_reg, lgbm_reg]:
# XGBoost의 경우 DataFrame이 입력 될 경우 버전에 따라 오류 발생 가능. ndarray로 변환.
get_model_predict(model, np.array(X_train.values), np.array(X_test.values), np.array(y_train.values), np.array(y_test.values),is_expm1=True)