수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?

Question

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요 먼저 유사한 질문이 있었는지 검색해보세요 예시문제 작업형2(2025v)에서 저는 아래와 같이 문자는 제외하고, rmse (max_depth, n_estimators 최적화도 진행함)를 구했는데요! 레이블인코딩하지 않은 경우라면, 채점시에 점수가 낮아질 확률이 높아지나요?? 합불에 크게 영향을 주는 지 궁금합니다. train= train.select _dtypes(exclude='O') test= test.select _dtypes(exclude='O') 추가로 제가 작성한 코드를붙입니다! train=train.dropna(axis=1) test=test.dropna(axis=1) train= train.select _dtypes(exclude='O') test= test.select _dtypes(exclude='O') # print(train.shape, test.shape) # print(train.isnull().sum().sum()) # print(test.isnull().sum().sum()) from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val = train_test_split(train.drop('총구매액', axis=1),train.pop('총구매액'), test_size=0.2, random_state=0) # print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape) from sklearn.ensemble import RandomForestRegressor rf=RandomForestRegressor(random_state=0,max_depth=7, n_estimators=200) rf.fit (X_tr,y_tr) pred=rf.predict(X_val) from sklearn.metrics import root_mean_squared_error print(root_mean_squared_error(y_val,pred)) #base 820.5860282970249 #3,100 875.2260812472606 #3,200 873.5386940171521 #3,400 874.1382881938769 #5,400 824.3641497143064 #5,200 818.239922754944 #7,100 804.8452832752822 #7,200 804.418493364831 // #10,300 814.7390378036772 # 10,100 820.1853548789979 pred=rf.predict(test) pd.DataFrame({'pred':pred}).to_csv('result.csv',index=False) print( pd.read _csv('result.csv'))

roadmap · Answer

레이블 인코딩이나 원핫인코딩중 한 개만 진행하면됩니다. 하이퍼 파라미터 최적화할 시간에 인코딩 하는 것이 좋을 것 같습니다. 하이퍼 파라미터가 아직까지 40점에 큰 영향이 없었어요 꼭 하지 않고 기본값으로 해도 됩니다. 인코딩은 점수에 큰 영향이 있어요. 문자형 컬럼 버리면 안됩니다!! 인코딩 반드시 진행해 주세요!

communityai8509 · Answer

안녕하세요, 인프런 AI 인턴입니다. 지호 이님! 수치형 데이터만을 선택하여 모델을 구축하는 것이 채점에 어떤 영향을 미치는지 궁금하신 것 같습니다. 우선, 머신러닝 모델에서 수치형 데이터만을 사용한 경우와 문자형 데이터도 포함한 경우의 차이에 대해 알려드리겠습니다. 수치형 데이터만 사용 : 이 방법은 데이터 전처리를 간소화할 수 있지만, 문자형 데이터의 유용한 정보를 놓칠 수 있습니다. 많은 경우, 문자형 데이터를 적절히 인코딩해 포함하는 것이 예측 성능을 높이는 데 도움이 됩니다. 문자형 데이터 처리 : 레이블 인코딩이나 원-핫 인코딩을 통해 문자형 데이터를 수치형으로 변환하면, 모델이 더 많은 정보를 활용할 수 있어 예측 성능이 향상될 수 있습니다. 질문의 맥락에서, 수치형 데이터만으로도 충분한 예측 성능을 보여줄 수 있지만, 문자형 데이터의 중요성을 간과해서는 안 됩니다. 즉, 문자형 데이터를 무시하여 낮은 점수를 받을 가능성은 있지만, 이는 데이터셋의 특성과 문자형 데이터의 정보 양에 크게 좌우됩니다. 관련 사례로, 다음 게시물을 참고하시면 도움이 될 것입니다: 5-2 type2의 문제를 수치형 데이터만 선택해서 랜덤포레스트로 학습 평가 이 질문에서는 수치형 데이터만을 사용해 랜덤포레스트를 학습시켰을 때의 결과를 다루고 있습니다. 답변에서는 넘파이 임포트 코드의 불필요성을 지적하며, 성능은 데이터에 크게 의존한다고 설명합니다. 위의 링크를 통해 다양한 관점을 확인하시고, 여러분의 보고서에 적용할 방안을 찾는 데 도움이 되셨으면 합니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.