수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
먼저 유사한 질문이 있었는지 검색해보세요
예시문제 작업형2(2025v)에서
저는 아래와 같이 문자는 제외하고, rmse (max_depth, n_estimators 최적화도 진행함)를 구했는데요! 레이블인코딩하지 않은 경우라면, 채점시에 점수가 낮아질 확률이 높아지나요?? 합불에 크게 영향을 주는 지 궁금합니다.
train=train.select_dtypes(exclude='O')
test=test.select_dtypes(exclude='O')
추가로 제가 작성한 코드를붙입니다!
train=train.dropna(axis=1)
test=test.dropna(axis=1)
train=train.select_dtypes(exclude='O')
test=test.select_dtypes(exclude='O')
# print(train.shape, test.shape)
# print(train.isnull().sum().sum())
# print(test.isnull().sum().sum())
from sklearn.model_selection import train_test_split
X_tr,X_val,y_tr,y_val = train_test_split(train.drop('총구매액', axis=1),train.pop('총구매액'), test_size=0.2, random_state=0)
# print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape)
from sklearn.ensemble import RandomForestRegressor
rf=RandomForestRegressor(random_state=0,max_depth=7, n_estimators=200)
rf.fit(X_tr,y_tr)
pred=rf.predict(X_val)
from sklearn.metrics import root_mean_squared_error
print(root_mean_squared_error(y_val,pred))
#base 820.5860282970249
#3,100 875.2260812472606
#3,200 873.5386940171521
#3,400 874.1382881938769
#5,400 824.3641497143064
#5,200 818.239922754944
#7,100 804.8452832752822
#7,200 804.418493364831 //
#10,300 814.7390378036772
# 10,100 820.1853548789979
pred=rf.predict(test)
pd.DataFrame({'pred':pred}).to_csv('result.csv',index=False)
print(pd.read_csv('result.csv'))
답변 2
1
레이블 인코딩이나 원핫인코딩중 한 개만 진행하면됩니다.
하이퍼 파라미터 최적화할 시간에 인코딩 하는 것이 좋을 것 같습니다.
하이퍼 파라미터가 아직까지 40점에 큰 영향이 없었어요 꼭 하지 않고 기본값으로 해도 됩니다.
인코딩은 점수에 큰 영향이 있어요. 문자형 컬럼 버리면 안됩니다!!
인코딩 반드시 진행해 주세요!
0
안녕하세요, 인프런 AI 인턴입니다. 지호 이님!
수치형 데이터만을 선택하여 모델을 구축하는 것이 채점에 어떤 영향을 미치는지 궁금하신 것 같습니다. 우선, 머신러닝 모델에서 수치형 데이터만을 사용한 경우와 문자형 데이터도 포함한 경우의 차이에 대해 알려드리겠습니다.
수치형 데이터만 사용: 이 방법은 데이터 전처리를 간소화할 수 있지만, 문자형 데이터의 유용한 정보를 놓칠 수 있습니다. 많은 경우, 문자형 데이터를 적절히 인코딩해 포함하는 것이 예측 성능을 높이는 데 도움이 됩니다.
문자형 데이터 처리: 레이블 인코딩이나 원-핫 인코딩을 통해 문자형 데이터를 수치형으로 변환하면, 모델이 더 많은 정보를 활용할 수 있어 예측 성능이 향상될 수 있습니다.
질문의 맥락에서, 수치형 데이터만으로도 충분한 예측 성능을 보여줄 수 있지만, 문자형 데이터의 중요성을 간과해서는 안 됩니다. 즉, 문자형 데이터를 무시하여 낮은 점수를 받을 가능성은 있지만, 이는 데이터셋의 특성과 문자형 데이터의 정보 양에 크게 좌우됩니다.
관련 사례로, 다음 게시물을 참고하시면 도움이 될 것입니다:
- 5-2 type2의 문제를 수치형 데이터만 선택해서 랜덤포레스트로 학습 평가
이 질문에서는 수치형 데이터만을 사용해 랜덤포레스트를 학습시켰을 때의 결과를 다루고 있습니다. 답변에서는 넘파이 임포트 코드의 불필요성을 지적하며, 성능은 데이터에 크게 의존한다고 설명합니다.
위의 링크를 통해 다양한 관점을 확인하시고, 여러분의 보고서에 적용할 방안을 찾는 데 도움이 되셨으면 합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
시험환경 구름
0
3
1
2유형 질문드려요
0
3
1
RandomForest vs lgb
0
15
1
전처리 관련질문
0
9
2
작업형3 기출
0
8
1
유형2에서 데이터분할 생략 가능여부
0
16
2
9회 기출 유형3 질문
0
12
1
lgb 기초편
0
8
1
괄호 사용
0
12
1
작업형 2 데이터 전처리 질문
0
16
1
11회 기출 유형 작업형1 문제 3-1
0
11
0
예시문제 작업형2 (ver2023) 질문입니다
0
14
1
Data type에 따른 처리
0
12
2
데이터 전처리 관련
0
14
2
시험에서 문제 불러오기
0
14
2
2번문제 출력값 질문
0
18
2
pd.get_dummies()가 bool로 반환
0
16
2
대응표본검정 레빈
0
20
3
단일표본검정 문제 유형
0
22
2
[작업형 3] 6~7. 카이제곱 검정
0
18
2
9회 작업형3 문제 1-1
0
36
2
최종답안 계산 방식 질문
0
22
1
시험 치기 전 급하게 질문 사항
0
38
2
유형3
0
30
2





