코딩팡질문이요ㅠㅠ

Question

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요 먼저 유사한 질문이 있었는지 검색해보세요 코딩팡학습하다가 의문이 생겨서요 작업형2 문제에서 나머지문제는 다 40점 나오는데 3번문제만 어떤방법을 써도 25점 이상 안올라가요..ㅠㅠ 이유가 뭔지 알길이 없네요.. 문제 다 똑같은 형식으로 제출했습니다. train = pd.get_dummies ( train ) test = pd.get_dummies ( test ) from sklearn.model_selection import train_test_split X_tr , X_val , y_tr , y_val = train_test_split ( train , target , test_size= 0.2 , random_state= 0 ) from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor ( random_state= 0 ) rf.fit ( X_tr , y_tr ) pred = rf.predict ( X_val ) from sklearn.metrics import root_mean_squared_error print ( root_mean_squared_error ( y_val , pred )) import lightgbm as lgb lg = lgb.LGBMRegressor ( random_state= 0 , verbose= -1 ) lg.fit ( X_tr , y_tr ) pred = lg.predict ( X_val ) print ( root_mean_squared_error ( y_val , pred )) import xgboost as xgb xg = xgb.XGBRegressor ( random_state= 0 , n_estimators = 400 ) xg.fit ( X_tr , y_tr ) pred = xg.predict ( X_val ) print ( root_mean_squared_error ( y_val , pred )) lg.fit ( train , target ) -> pred = lg.predict(test) 로도 해봤어요! pred = lg.predict ( test ) submit = pd.DataFrame ({ 'pred' : pred }) submit.to _csv ( 'result.csv' , index= False ) print ( pd.read _csv ( 'result.csv' ))

communityai8509 · Answer

안녕하세요, 인프런 AI 인턴입니다. jeelf67님의 질문에 답변드리겠습니다. 작업형 2에서 특정 문제만 점수가 낮게 나오는 이유는 여러 가지가 있을 수 있습니다. 일반적으로 전처리, 모델 선택, 데이터 분할, 모델 파라미터 설정 등이 주된 이유가 될 수 있습니다. 이에 대해 몇 가지 점검할 수 있는 사항을 안내드리겠습니다: 데이터 전처리 확인 : pd.get_dummies() 를 사용하여 범주형 데이터를 인코딩하는 것은 기본적인 접근 방식입니다. 다만, train과 test 데이터셋의 컬럼이 일치하는지 꼭 확인해보세요. train에는 존재하지만 test에는 없는 컬럼이 있을 경우, 예측 결과에 영향을 미칠 수 있습니다. 모델 검증 및 평가 : train_test_split 함수로 데이터를 분할할 때, 나머지 데이터 및 성능 평가 방법이 올바른지 확인해야 합니다. 또한, root_mean_squared_error 대신 mean_squared_error 를 사용하고 나중에 제곱근을 계산하세요( numpy 를 사용하거나 수동으로 **0.5 를 적용하십시오). Hyperparameter Tuning : 현재 모든 모델에서 기본 하이퍼파라미터를 사용하고 계신데, 모델의 성능을 높이기 위해서는 하이퍼파라미터를 조정해보시는 것이 좋습니다. GridSearchCV 같은 기법을 통해 최적의 파라미터를 탐색해보세요. 모델 선택 : 여러 모델을 사용하고 계시지만, 데이터 특성과 문제에 따라 가장 적합한 모델을 선택하는 것이 중요합니다. 성능이 낮게 나오는 문제에 대해서는 데이터의 특성이나 분포에 맞는 다른 모델을 시도해 보시는 것도 방법입니다. 데이터셋 세분화 또는 추가 전처리 : 데이터 자체적인 문제일 수도 있습니다. 따라서 데이터를 충분히 이해하고 분석한 후, 이상치 처리나 로그 변환 같은 추가적인 전처리 방법을 고려해보세요. 위의 사항들을 고려하여 다시 한번 분석을 진행해 보시고, 필요한 부분에 대해 조정하셨으면 합니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 지금의 경우, (관련 질문) 5회 작업형2 질문있습니다 링크에서 추가적인 힌트를 얻으실 수 있을 것 같습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.