회귀모형 질문

Question

문제2. 에버비엔비 가격은?평가: R_Squared, MAE, MSE, RMSE, RMSLE, MAPE문제에서 #데이터 전처리train = train.drop('id', axis=1)test_id = test.pop('id')target = train.pop('price') a = [ 'name', 'host_id', 'host_name', 'last_review' ]train = train.drop(a, aixs=1)test = test.drop(a, axis=1)train[reviews_per_month] = train[reviews_per_month].fillna(0)test[reviews_per_month] = test[reviews_per_month].fillna(0)#라벨인코딩 cols = train.select_dtypes(include='object').columns from sklearn.preprocessing import LabelEncoderle = LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])#train_test_splitfrom sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022)#랜덤포레스트from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor()rf.fit(X_tr, y_tr)pred = rf.predict(X_val)#rmsefrom sklearn.metrics import mean_sqaured_error def rmse(y_val, pred): return mean_squared_error(y_val, pred)**2(질문1)이렇게 했는데 rmse에서 **2까지 입력하면 예측값이 0.xx라고 출력되어야 하지 않나요?**2까지 입력했는데 아무 값도 출력이 안되네요ㅠ그리고 데이터 저장 후에는 [사진]price가 406, 160..이렇게 출력됩니다!강사님 풀이에는 295, 155..이던데값이 달라도 괜찮은건가요?(질문2)이후 강의에서 rmse를 from sklearn.metrics import mean_squared_errordef rmse(y_val, pred):    return mean_squared_error(y_val, pred)**2로 하시던데 rmsle나 mape도 numpy를 사용하지 않고 간단하게 표현하는 방법이 있을까요?

Answer

질문 1:rmse 함수에서 mean_squared_error(y_val, pred)**2로 작성하면 잘못된 계산이에요~. mean_squared_error 함수는 이미 MSE 값을 반환하므로, RMSE를 구하려면 MSE에 제곱근을 씌워야 합니다. 따라서 아래와 같이 수정해야 합니다.from sklearn.metrics import mean_squared_error  def rmse(y_val, pred):     return mean_squared_error(y_val, pred)**0.5를 사용하거나 넘파이를 사용한다면 아래와 같이 사용할 수 있어요import numpy as np from sklearn.metrics import mean_squared_error  def rmse(y_val, pred):     return np.sqrt(mean_squared_error(y_val, pred))데이터 전처리 과정에서 발생하는 차이로 인해 예측 결과의 값이 다를 수 있습니다. 데이터 전처리 단계에서 어떤 작업을 수행했는지, 특성 선택이나 인코딩 방식 등에 따라 예측 결과가 달라질 수 있습니다. 따라서 값이 다르다고 해서 꼭 문제가 있는 것은 아닙니다. 중요한 것은 모델의 성능을 평가하는 지표(RMSE, MAE 등)를 확인하고, 그 값을 기준으로 모델의 성능을 판단하는 것입니다. 질문2rmsle를 넘파이 없이 계산하려면 사이킷런에서 제공하지 않기 때문에 상당히 코드가 복잡해져요!mape는 아래과 같이 사용할 수 있어요! from sklearn.metrics import mean_absolute_percentage_error  def mape(y_val, pred):     return mean_absolute_percentage_error(y_val, pred)

Answer

안녕하세요, 인프런 AI 인턴입니다.
훈련님의 질문에 답변드리겠습니다.

(질문1)
RMSE(Root Mean Squared Error) 계산 시 제곱근을 취해야 정확한 값이 나옵니다.
아래 함수를 수정하여 사용해보세요.

from sklearn.metrics import mean_squared_error

def rmse(y_val, pred):
    return mean_squared_error(y_val, pred)**0.5

제곱을 하지 않고 제곱근을 취해야 하므로 **2가 아닌 **0.5를 함수에 사용하면 됩니다.
예측값이 0.xx라고 나와야 하는 것이 아니라, 실제 y_val과 pred 사이의 RMSE 값을 계산한 결과가 나와야 합니다. 만약 값이 출력되지 않았다면, 함수 호출 시 print 문을 활용하여 결과를 출력해보세요.

(질문2)
RMSLE나 MAPE 같은 평가지표도 NumPy를 사용하지 않고 구현할 수 있습니다.
아래는 RMSLE와 MAPE를 계산하는 간단한 함수 예시입니다.

import numpy as np

# RMSLE
def rmsle(y_val, pred):
    return np.sqrt(np.mean(np.log1p(pred) - np.log1p(y_val))**2)

# MAPE
def mape(y_val, pred):
    return np.mean(np.abs((y_val - pred) / y_val)) * 100

다만, 위 함수들에서 np.log1p와 np.abs 같은 NumPy의 기능들을 사용하고 있습니다.
기본 Python 기능만을 사용해서 함수를 구현하려면 조금 더 복잡해질 수 있으나, 대부분의 데이터 과학 작업에서 NumPy는 표준 라이브러리처럼 널리 사용되므로 사용에 부담이 없습니다.

각각의 경우에 대해 적절한 값을 얻었다면, 이를 실제로 각 평가 지표에 따라 값을 계산해 성능을 평가할 수 있습니다.
기타 더 궁금한 점이 있다면 인프런 FAQ를 참고하시거나, 추가적으로 문의해주시기 바랍니다.

박태준

회귀모형 질문

이 글과 비슷한 Q&A

섹션0 마지막강의 질문입니다.

네이버쇼핑 무한스크롤 안되시는분들 모바일네이버로 실습해보세요

모의문제 작업1 데이터 불러오기

슬라이싱 할때