RMSE 값 오차
안녕하세요 선생님,
800대로 나와야 될 RMSE 값이 1100대로 나오는데, 차이가 좀 커서 문제가 있는것 같아요. 혹시 제 코드좀 봐주실 수 있을까요?
import pandas as pd
train = pd.read_csv("data/customer_train.csv")
test = pd.read_csv("data/customer_test.csv")
cols = test.select_dtypes('object').columns
# ## 전처리1. 컬럼삭제
# train = train.drop(cols, axis=1)
# test = test.drop(cols, axis=1)
## 전처리2. 레이블인코딩
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for col in cols :
train[col] = le.fit_transform(train[col])
test[col] = le.transform(test[col])
# 검증-테스트 데이터 분리
from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(
train.drop('총구매액', axis=1), train['총구매액'], test_size=0.2, random_state=1
)
# 랜덤포레스트
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(random_state=1)
model.fit(X_tr, y_tr)
pred = model.predict(X_val)
# 평가
from sklearn.metrics import root_mean_squared_error
print(root_mean_squared_error(y_val, pred))
## 컬럼삭제 : 1135.0196199
## 레이블인코딩: 1136.88945667
답변 2
0
코드에는 문제가 없습니다. 테스트 해보니
유독 random_state 가 1일 때만 모델이 성능이 나빠지네요ㅠㅠ
아무래도 데이터가 작고 좋은 상태가 아니라서 랜덤적인 부분에서 영향이 큰 것 같습니다.
이런 경우 너무 많이는 말고 0, 1,2 이 정도만 테스트 해보면 좋을 것 같아요
0
안녕하세요, 인프런 AI 인턴입니다. 단비님께서 작성하신 코드를 기반으로 RMSE 값이 예상보다 크게 나오는 원인을 함께 살펴보겠습니다.
현재 코드 및 체크 사항
데이터 전처리:
컬럼삭제방법과레이블인코딩방법을 각각 시도하신 것으로 보입니다. 코드에 주석처리된컬럼삭제부분을 확인하여 불필요한 컬럼이 있는지 확인해 주세요.
- 레이블 인코딩을 실시했는데, 인코딩 과정에서 train과 test 데이터가 동일한 범주 값을 갖는지 확인이 필요합니다. LabelEncoder는 unseen 데이터를 처리하는데 제한이 있을 수 있습니다.
하이퍼파라미터 조정:
RandomForestRegressor의 하이퍼파라미터 설정이 성능에 큰 영향을 미칠 수 있습니다.n_estimators,max_depth,min_samples_leaf등의 값을 조정해보세요.
- 모델의 복잡도를 줄이거나 데이터를 적절히 표현할 수 있도록 하이퍼파라미터 최적화를 고려해 보세요.
평가 함수 확인:
- RMSE를 계산하기 위해
root_mean_squared_error를 사용하셨으나,sklearn.metrics에는 해당 함수가 없습니다. 일반적으로 RMSE는 MSE의 제곱근으로 계산합니다.
- RMSE를 계산하기 위해
from sklearn.metrics import mean_squared_error
rmse = mean_squared_error(y_val, pred, squared=False)
print("RMSE:", rmse)
참고 링크
아래에는 비슷한 상황에서 RMSE 차이에 관한 문제를 다룬 질문 URL을 제공합니다. 비슷한 사례를 참조하시면서 코드를 개선할 수 있습니다.
이 링크들에서는 비슷한 결과 차이와 해결 과정이 설명되어 있습니다. 코드의 다른 부분을 점검하며 더 나은 결과를 위한 힌트를 얻을 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
추가질문 합니다
0
7
1
시험환경 구름
0
9
1
2유형 질문드려요
0
7
1
RandomForest vs lgb
0
18
1
전처리 관련질문
0
12
2
작업형3 기출
0
12
1
유형2에서 데이터분할 생략 가능여부
0
20
2
9회 기출 유형3 질문
0
15
1
lgb 기초편
0
10
1
괄호 사용
0
15
1
작업형 2 데이터 전처리 질문
0
18
1
11회 기출 유형 작업형1 문제 3-1
0
13
0
예시문제 작업형2 (ver2023) 질문입니다
0
16
1
Data type에 따른 처리
0
15
2
데이터 전처리 관련
0
15
2
시험에서 문제 불러오기
0
18
2
2번문제 출력값 질문
0
21
2
pd.get_dummies()가 bool로 반환
0
18
2
대응표본검정 레빈
0
23
3
단일표본검정 문제 유형
0
23
2
[작업형 3] 6~7. 카이제곱 검정
0
22
2
9회 작업형3 문제 1-1
0
37
2
최종답안 계산 방식 질문
0
25
1
시험 치기 전 급하게 질문 사항
0
41
2





