inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(ver. 2025)

수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?

3

지호 이

작성한 질문수 1

0

예시문제 작업형2(2025v)에서

저는 아래와 같이 문자는 제외하고, rmse (max_depth, n_estimators 최적화도 진행함)를 구했는데요! 레이블인코딩하지 않은 경우라면, 채점시에 점수가 낮아질 확률이 높아지나요?? 합불에 크게 영향을 주는 지 궁금합니다.

train=train.select_dtypes(exclude='O')

test=test.select_dtypes(exclude='O')


 

추가로 제가 작성한 코드를붙입니다!


train=train.dropna(axis=1)

test=test.dropna(axis=1)

train=train.select_dtypes(exclude='O')

test=test.select_dtypes(exclude='O')

# print(train.shape, test.shape)

# print(train.isnull().sum().sum())

# print(test.isnull().sum().sum())

from sklearn.model_selection import train_test_split

X_tr,X_val,y_tr,y_val = train_test_split(train.drop('총구매액', axis=1),train.pop('총구매액'), test_size=0.2, random_state=0)

# print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape)

from sklearn.ensemble import RandomForestRegressor

rf=RandomForestRegressor(random_state=0,max_depth=7, n_estimators=200)

rf.fit(X_tr,y_tr)

pred=rf.predict(X_val)

from sklearn.metrics import root_mean_squared_error

print(root_mean_squared_error(y_val,pred))

#base 820.5860282970249

#3,100 875.2260812472606

#3,200 873.5386940171521

#3,400 874.1382881938769

#5,400 824.3641497143064

#5,200 818.239922754944

#7,100 804.8452832752822

#7,200 804.418493364831 //

#10,300 814.7390378036772

# 10,100 820.1853548789979

pred=rf.predict(test)

pd.DataFrame({'pred':pred}).to_csv('result.csv',index=False)

print(pd.read_csv('result.csv'))

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 지호 이님!

수치형 데이터만을 선택하여 모델을 구축하는 것이 채점에 어떤 영향을 미치는지 궁금하신 것 같습니다. 우선, 머신러닝 모델에서 수치형 데이터만을 사용한 경우와 문자형 데이터도 포함한 경우의 차이에 대해 알려드리겠습니다.

  1. 수치형 데이터만 사용: 이 방법은 데이터 전처리를 간소화할 수 있지만, 문자형 데이터의 유용한 정보를 놓칠 수 있습니다. 많은 경우, 문자형 데이터를 적절히 인코딩해 포함하는 것이 예측 성능을 높이는 데 도움이 됩니다.

  2. 문자형 데이터 처리: 레이블 인코딩이나 원-핫 인코딩을 통해 문자형 데이터를 수치형으로 변환하면, 모델이 더 많은 정보를 활용할 수 있어 예측 성능이 향상될 수 있습니다.

질문의 맥락에서, 수치형 데이터만으로도 충분한 예측 성능을 보여줄 수 있지만, 문자형 데이터의 중요성을 간과해서는 안 됩니다. 즉, 문자형 데이터를 무시하여 낮은 점수를 받을 가능성은 있지만, 이는 데이터셋의 특성과 문자형 데이터의 정보 양에 크게 좌우됩니다.

관련 사례로, 다음 게시물을 참고하시면 도움이 될 것입니다:

위의 링크를 통해 다양한 관점을 확인하시고, 여러분의 보고서에 적용할 방안을 찾는 데 도움이 되셨으면 합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

2유형 object 컬럼 인코딩 관련 질문

0

14

1

하이퍼파라미터 변수

0

12

1

52강 이원분산분석

0

10

1

실제시험환경에서 작업형1,2,3의 문제풀이 순서

0

15

1

독립표본검정

0

22

2

tranform을 쓰라는 힌트는 어디서 얻을 수 있나요??

0

22

2

df.describe() 사용을 자제해야할까요?

0

27

2

shape 결과에 대한 문의

0

29

2

자료 문의

0

18

1

8 회귀 11번

0

23

2

심화 강의 관련 질문

0

26

2

빈도수 구하는 것 질문

0

19

2

커리큘럼을 따로 인쇄할 수 있는 방법이 있을까요?

0

31

1

작업형2 머신러닝 문제풀이 중 test 데이터 에러 문의

0

30

2

수강연장가능문의

0

36

2

59. 11회 기출 유형 작업형 1 - 문제2 관련

0

30

2

원핫인코딩 슬라이싱 결과

0

25

2

random_state 값이 궁금합니다!

0

36

2

수강기간 연장 가능 여부 문의드립니다

0

53

2

city 컬럼 삭제

0

36

2

3회 기출(작업형 2) 질문 있습니다!!

0

37

1

2유형 탬플릿에 대한 질문입니다

0

51

1

시험환경 질문 드립니다.

0

39

1

수강기간 연장 가능 여부 문의드립니다

0

58

2