강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

단비님의 프로필 이미지
단비

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(ver. 2025) 🆕

RMSE 값 오차

해결된 질문

작성

·

35

0

안녕하세요 선생님,

 

800대로 나와야 될 RMSE 값이 1100대로 나오는데, 차이가 좀 커서 문제가 있는것 같아요. 혹시 제 코드좀 봐주실 수 있을까요?

import pandas as pd

train = pd.read_csv("data/customer_train.csv")
test = pd.read_csv("data/customer_test.csv")

cols = test.select_dtypes('object').columns

# ## 전처리1. 컬럼삭제
# train = train.drop(cols, axis=1)
# test = test.drop(cols, axis=1)

## 전처리2. 레이블인코딩
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for col in cols :
	train[col] = le.fit_transform(train[col])
	test[col] = le.transform(test[col])

	
# 검증-테스트 데이터 분리
from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(
	train.drop('총구매액', axis=1), train['총구매액'], test_size=0.2, random_state=1
)

# 랜덤포레스트
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(random_state=1)
model.fit(X_tr, y_tr)
pred = model.predict(X_val)


# 평가
from sklearn.metrics import root_mean_squared_error
print(root_mean_squared_error(y_val, pred))
## 컬럼삭제 : 1135.0196199
## 레이블인코딩: 1136.88945667

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

코드에는 문제가 없습니다. 테스트 해보니

유독 random_state 가 1일 때만 모델이 성능이 나빠지네요ㅠㅠ

아무래도 데이터가 작고 좋은 상태가 아니라서 랜덤적인 부분에서 영향이 큰 것 같습니다.

이런 경우 너무 많이는 말고 0, 1,2 이 정도만 테스트 해보면 좋을 것 같아요

0

안녕하세요, 인프런 AI 인턴입니다. 단비님께서 작성하신 코드를 기반으로 RMSE 값이 예상보다 크게 나오는 원인을 함께 살펴보겠습니다.

현재 코드 및 체크 사항

  1. 데이터 전처리:

    • 컬럼삭제 방법과 레이블인코딩 방법을 각각 시도하신 것으로 보입니다. 코드에 주석처리된 컬럼삭제 부분을 확인하여 불필요한 컬럼이 있는지 확인해 주세요.
    • 레이블 인코딩을 실시했는데, 인코딩 과정에서 train과 test 데이터가 동일한 범주 값을 갖는지 확인이 필요합니다. LabelEncoder는 unseen 데이터를 처리하는데 제한이 있을 수 있습니다.
  2. 하이퍼파라미터 조정:

    • RandomForestRegressor의 하이퍼파라미터 설정이 성능에 큰 영향을 미칠 수 있습니다. n_estimators, max_depth, min_samples_leaf 등의 값을 조정해보세요.
    • 모델의 복잡도를 줄이거나 데이터를 적절히 표현할 수 있도록 하이퍼파라미터 최적화를 고려해 보세요.
  3. 평가 함수 확인:

    • RMSE를 계산하기 위해 root_mean_squared_error를 사용하셨으나, sklearn.metrics에는 해당 함수가 없습니다. 일반적으로 RMSE는 MSE의 제곱근으로 계산합니다.
   from sklearn.metrics import mean_squared_error
   rmse = mean_squared_error(y_val, pred, squared=False)
   print("RMSE:", rmse)

참고 링크

아래에는 비슷한 상황에서 RMSE 차이에 관한 문제를 다룬 질문 URL을 제공합니다. 비슷한 사례를 참조하시면서 코드를 개선할 수 있습니다.

이 링크들에서는 비슷한 결과 차이와 해결 과정이 설명되어 있습니다. 코드의 다른 부분을 점검하며 더 나은 결과를 위한 힌트를 얻을 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

단비님의 프로필 이미지
단비

작성한 질문수

질문하기