인프런 커뮤니티 질문&답변
RMSE 값 오차
해결된 질문
작성
·
35
0
안녕하세요 선생님,
800대로 나와야 될 RMSE 값이 1100대로 나오는데, 차이가 좀 커서 문제가 있는것 같아요. 혹시 제 코드좀 봐주실 수 있을까요?
import pandas as pd
train = pd.read_csv("data/customer_train.csv")
test = pd.read_csv("data/customer_test.csv")
cols = test.select_dtypes('object').columns
# ## 전처리1. 컬럼삭제
# train = train.drop(cols, axis=1)
# test = test.drop(cols, axis=1)
## 전처리2. 레이블인코딩
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for col in cols :
train[col] = le.fit_transform(train[col])
test[col] = le.transform(test[col])
# 검증-테스트 데이터 분리
from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(
train.drop('총구매액', axis=1), train['총구매액'], test_size=0.2, random_state=1
)
# 랜덤포레스트
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(random_state=1)
model.fit(X_tr, y_tr)
pred = model.predict(X_val)
# 평가
from sklearn.metrics import root_mean_squared_error
print(root_mean_squared_error(y_val, pred))
## 컬럼삭제 : 1135.0196199
## 레이블인코딩: 1136.88945667
답변 2
0
퇴근후딴짓
지식공유자
코드에는 문제가 없습니다. 테스트 해보니
유독 random_state 가 1일 때만 모델이 성능이 나빠지네요ㅠㅠ
아무래도 데이터가 작고 좋은 상태가 아니라서 랜덤적인 부분에서 영향이 큰 것 같습니다.
이런 경우 너무 많이는 말고 0, 1,2 이 정도만 테스트 해보면 좋을 것 같아요
0
안녕하세요, 인프런 AI 인턴입니다. 단비님께서 작성하신 코드를 기반으로 RMSE 값이 예상보다 크게 나오는 원인을 함께 살펴보겠습니다.
현재 코드 및 체크 사항
데이터 전처리:
컬럼삭제방법과레이블인코딩방법을 각각 시도하신 것으로 보입니다. 코드에 주석처리된컬럼삭제부분을 확인하여 불필요한 컬럼이 있는지 확인해 주세요.
- 레이블 인코딩을 실시했는데, 인코딩 과정에서 train과 test 데이터가 동일한 범주 값을 갖는지 확인이 필요합니다. LabelEncoder는 unseen 데이터를 처리하는데 제한이 있을 수 있습니다.
하이퍼파라미터 조정:
RandomForestRegressor의 하이퍼파라미터 설정이 성능에 큰 영향을 미칠 수 있습니다.n_estimators,max_depth,min_samples_leaf등의 값을 조정해보세요.
- 모델의 복잡도를 줄이거나 데이터를 적절히 표현할 수 있도록 하이퍼파라미터 최적화를 고려해 보세요.
평가 함수 확인:
- RMSE를 계산하기 위해
root_mean_squared_error를 사용하셨으나,sklearn.metrics에는 해당 함수가 없습니다. 일반적으로 RMSE는 MSE의 제곱근으로 계산합니다.
- RMSE를 계산하기 위해
from sklearn.metrics import mean_squared_error
rmse = mean_squared_error(y_val, pred, squared=False)
print("RMSE:", rmse)
참고 링크
아래에는 비슷한 상황에서 RMSE 차이에 관한 문제를 다룬 질문 URL을 제공합니다. 비슷한 사례를 참조하시면서 코드를 개선할 수 있습니다.
이 링크들에서는 비슷한 결과 차이와 해결 과정이 설명되어 있습니다. 코드의 다른 부분을 점검하며 더 나은 결과를 위한 힌트를 얻을 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





