수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?
3
1 asked
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
먼저 유사한 질문이 있었는지 검색해보세요
예시문제 작업형2(2025v)에서
저는 아래와 같이 문자는 제외하고, rmse (max_depth, n_estimators 최적화도 진행함)를 구했는데요! 레이블인코딩하지 않은 경우라면, 채점시에 점수가 낮아질 확률이 높아지나요?? 합불에 크게 영향을 주는 지 궁금합니다.
train=train.select_dtypes(exclude='O')
test=test.select_dtypes(exclude='O')
추가로 제가 작성한 코드를붙입니다!
train=train.dropna(axis=1)
test=test.dropna(axis=1)
train=train.select_dtypes(exclude='O')
test=test.select_dtypes(exclude='O')
# print(train.shape, test.shape)
# print(train.isnull().sum().sum())
# print(test.isnull().sum().sum())
from sklearn.model_selection import train_test_split
X_tr,X_val,y_tr,y_val = train_test_split(train.drop('총구매액', axis=1),train.pop('총구매액'), test_size=0.2, random_state=0)
# print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape)
from sklearn.ensemble import RandomForestRegressor
rf=RandomForestRegressor(random_state=0,max_depth=7, n_estimators=200)
rf.fit(X_tr,y_tr)
pred=rf.predict(X_val)
from sklearn.metrics import root_mean_squared_error
print(root_mean_squared_error(y_val,pred))
#base 820.5860282970249
#3,100 875.2260812472606
#3,200 873.5386940171521
#3,400 874.1382881938769
#5,400 824.3641497143064
#5,200 818.239922754944
#7,100 804.8452832752822
#7,200 804.418493364831 //
#10,300 814.7390378036772
# 10,100 820.1853548789979
pred=rf.predict(test)
pd.DataFrame({'pred':pred}).to_csv('result.csv',index=False)
print(pd.read_csv('result.csv'))
Answer 1
0
안녕하세요, 인프런 AI 인턴입니다. 지호 이님!
수치형 데이터만을 선택하여 모델을 구축하는 것이 채점에 어떤 영향을 미치는지 궁금하신 것 같습니다. 우선, 머신러닝 모델에서 수치형 데이터만을 사용한 경우와 문자형 데이터도 포함한 경우의 차이에 대해 알려드리겠습니다.
수치형 데이터만 사용: 이 방법은 데이터 전처리를 간소화할 수 있지만, 문자형 데이터의 유용한 정보를 놓칠 수 있습니다. 많은 경우, 문자형 데이터를 적절히 인코딩해 포함하는 것이 예측 성능을 높이는 데 도움이 됩니다.
문자형 데이터 처리: 레이블 인코딩이나 원-핫 인코딩을 통해 문자형 데이터를 수치형으로 변환하면, 모델이 더 많은 정보를 활용할 수 있어 예측 성능이 향상될 수 있습니다.
질문의 맥락에서, 수치형 데이터만으로도 충분한 예측 성능을 보여줄 수 있지만, 문자형 데이터의 중요성을 간과해서는 안 됩니다. 즉, 문자형 데이터를 무시하여 낮은 점수를 받을 가능성은 있지만, 이는 데이터셋의 특성과 문자형 데이터의 정보 양에 크게 좌우됩니다.
관련 사례로, 다음 게시물을 참고하시면 도움이 될 것입니다:
- 5-2 type2의 문제를 수치형 데이터만 선택해서 랜덤포레스트로 학습 평가
이 질문에서는 수치형 데이터만을 사용해 랜덤포레스트를 학습시켰을 때의 결과를 다루고 있습니다. 답변에서는 넘파이 임포트 코드의 불필요성을 지적하며, 성능은 데이터에 크게 의존한다고 설명합니다.
위의 링크를 통해 다양한 관점을 확인하시고, 여러분의 보고서에 적용할 방안을 찾는 데 도움이 되셨으면 합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
2유형 object 컬럼 인코딩 관련 질문
0
14
1
하이퍼파라미터 변수
0
12
1
52강 이원분산분석
0
10
1
실제시험환경에서 작업형1,2,3의 문제풀이 순서
0
15
1
독립표본검정
0
22
2
tranform을 쓰라는 힌트는 어디서 얻을 수 있나요??
0
22
2
df.describe() 사용을 자제해야할까요?
0
27
2
shape 결과에 대한 문의
0
29
2
자료 문의
0
18
1
8 회귀 11번
0
23
2
심화 강의 관련 질문
0
26
2
빈도수 구하는 것 질문
0
19
2
커리큘럼을 따로 인쇄할 수 있는 방법이 있을까요?
0
31
1
작업형2 머신러닝 문제풀이 중 test 데이터 에러 문의
0
30
2
수강연장가능문의
0
36
2
59. 11회 기출 유형 작업형 1 - 문제2 관련
0
30
2
원핫인코딩 슬라이싱 결과
0
25
2
random_state 값이 궁금합니다!
0
36
2
수강기간 연장 가능 여부 문의드립니다
0
53
2
city 컬럼 삭제
0
36
2
3회 기출(작업형 2) 질문 있습니다!!
0
37
1
2유형 탬플릿에 대한 질문입니다
0
51
1
시험환경 질문 드립니다.
0
39
1
수강기간 연장 가능 여부 문의드립니다
0
58
2

