RMSE 값 오차

Question

안녕하세요 선생님, 800대로 나와야 될 RMSE 값이 1100대로 나오는데, 차이가 좀 커서 문제가 있는것 같아요. 혹시 제 코드좀 봐주실 수 있을까요? import pandas as pd train = pd.read_csv("data/customer_train.csv") test = pd.read_csv("data/customer_test.csv") cols = test.select_dtypes('object').columns # ## 전처리1. 컬럼삭제 # train = train.drop(cols, axis=1) # test = test.drop(cols, axis=1) ## 전처리2. 레이블인코딩 from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols : train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) # 검증-테스트 데이터 분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split( train.drop('총구매액', axis=1), train['총구매액'], test_size=0.2, random_state=1 ) # 랜덤포레스트 from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor(random_state=1) model.fit(X_tr, y_tr) pred = model.predict(X_val) # 평가 from sklearn.metrics import root_mean_squared_error print(root_mean_squared_error(y_val, pred)) ## 컬럼삭제 : 1135.0196199 ## 레이블인코딩: 1136.88945667

퇴근후딴짓 · Answer

코드에는 문제가 없습니다. 테스트 해보니 유독 random_state 가 1일 때만 모델이 성능이 나빠지네요ㅠㅠ 아무래도 데이터가 작고 좋은 상태가 아니라서 랜덤적인 부분에서 영향이 큰 것 같습니다. 이런 경우 너무 많이는 말고 0, 1,2 이 정도만 테스트 해보면 좋을 것 같아요

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 단비님께서 작성하신 코드를 기반으로 RMSE 값이 예상보다 크게 나오는 원인을 함께 살펴보겠습니다. 현재 코드 및 체크 사항 데이터 전처리 : 컬럼삭제 방법과 레이블인코딩 방법을 각각 시도하신 것으로 보입니다. 코드에 주석처리된 컬럼삭제 부분을 확인하여 불필요한 컬럼이 있는지 확인해 주세요. 레이블 인코딩을 실시했는데, 인코딩 과정에서 train과 test 데이터가 동일한 범주 값을 갖는지 확인이 필요합니다. LabelEncoder는 unseen 데이터를 처리하는데 제한이 있을 수 있습니다. 하이퍼파라미터 조정 : RandomForestRegressor 의 하이퍼파라미터 설정이 성능에 큰 영향을 미칠 수 있습니다. n_estimators , max_depth , min_samples_leaf 등의 값을 조정해보세요. 모델의 복잡도를 줄이거나 데이터를 적절히 표현할 수 있도록 하이퍼파라미터 최적화를 고려해 보세요. 평가 함수 확인 : RMSE를 계산하기 위해 root_mean_squared_error 를 사용하셨으나, sklearn.metrics 에는 해당 함수가 없습니다. 일반적으로 RMSE는 MSE의 제곱근으로 계산합니다. from sklearn.metrics import mean_squared_error rmse = mean_squared_error(y_val, pred, squared=False) print("RMSE:", rmse) 참고 링크 아래에는 비슷한 상황에서 RMSE 차이에 관한 문제를 다룬 질문 URL을 제공합니다. 비슷한 사례를 참조하시면서 코드를 개선할 수 있습니다. 예시문제 작업형2 관련 질문드립니다. 시험환경 ver.2025 작업형2 RMSE 이 링크들에서는 비슷한 결과 차이와 해결 과정이 설명되어 있습니다. 코드의 다른 부분을 점검하며 더 나은 결과를 위한 힌트를 얻을 수 있습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.