inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(ver. 2025)

수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?

해결된 질문

36

지호 이

작성한 질문수 2

0

예시문제 작업형2(2025v)에서

저는 아래와 같이 문자는 제외하고, rmse (max_depth, n_estimators 최적화도 진행함)를 구했는데요! 레이블인코딩하지 않은 경우라면, 채점시에 점수가 낮아질 확률이 높아지나요?? 합불에 크게 영향을 주는 지 궁금합니다.

train=train.select_dtypes(exclude='O')

test=test.select_dtypes(exclude='O')


 

추가로 제가 작성한 코드를붙입니다!


train=train.dropna(axis=1)

test=test.dropna(axis=1)

train=train.select_dtypes(exclude='O')

test=test.select_dtypes(exclude='O')

# print(train.shape, test.shape)

# print(train.isnull().sum().sum())

# print(test.isnull().sum().sum())

from sklearn.model_selection import train_test_split

X_tr,X_val,y_tr,y_val = train_test_split(train.drop('총구매액', axis=1),train.pop('총구매액'), test_size=0.2, random_state=0)

# print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape)

from sklearn.ensemble import RandomForestRegressor

rf=RandomForestRegressor(random_state=0,max_depth=7, n_estimators=200)

rf.fit(X_tr,y_tr)

pred=rf.predict(X_val)

from sklearn.metrics import root_mean_squared_error

print(root_mean_squared_error(y_val,pred))

#base 820.5860282970249

#3,100 875.2260812472606

#3,200 873.5386940171521

#3,400 874.1382881938769

#5,400 824.3641497143064

#5,200 818.239922754944

#7,100 804.8452832752822

#7,200 804.418493364831 //

#10,300 814.7390378036772

# 10,100 820.1853548789979

pred=rf.predict(test)

pd.DataFrame({'pred':pred}).to_csv('result.csv',index=False)

print(pd.read_csv('result.csv'))

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

1

퇴근후딴짓

레이블 인코딩이나 원핫인코딩중 한 개만 진행하면됩니다.

하이퍼 파라미터 최적화할 시간에 인코딩 하는 것이 좋을 것 같습니다.

하이퍼 파라미터가 아직까지 40점에 큰 영향이 없었어요 꼭 하지 않고 기본값으로 해도 됩니다.

인코딩은 점수에 큰 영향이 있어요. 문자형 컬럼 버리면 안됩니다!!

인코딩 반드시 진행해 주세요!

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 지호 이님!

수치형 데이터만을 선택하여 모델을 구축하는 것이 채점에 어떤 영향을 미치는지 궁금하신 것 같습니다. 우선, 머신러닝 모델에서 수치형 데이터만을 사용한 경우와 문자형 데이터도 포함한 경우의 차이에 대해 알려드리겠습니다.

  1. 수치형 데이터만 사용: 이 방법은 데이터 전처리를 간소화할 수 있지만, 문자형 데이터의 유용한 정보를 놓칠 수 있습니다. 많은 경우, 문자형 데이터를 적절히 인코딩해 포함하는 것이 예측 성능을 높이는 데 도움이 됩니다.

  2. 문자형 데이터 처리: 레이블 인코딩이나 원-핫 인코딩을 통해 문자형 데이터를 수치형으로 변환하면, 모델이 더 많은 정보를 활용할 수 있어 예측 성능이 향상될 수 있습니다.

질문의 맥락에서, 수치형 데이터만으로도 충분한 예측 성능을 보여줄 수 있지만, 문자형 데이터의 중요성을 간과해서는 안 됩니다. 즉, 문자형 데이터를 무시하여 낮은 점수를 받을 가능성은 있지만, 이는 데이터셋의 특성과 문자형 데이터의 정보 양에 크게 좌우됩니다.

관련 사례로, 다음 게시물을 참고하시면 도움이 될 것입니다:

위의 링크를 통해 다양한 관점을 확인하시고, 여러분의 보고서에 적용할 방안을 찾는 데 도움이 되셨으면 합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

시험환경 구름

0

3

1

2유형 질문드려요

0

3

1

RandomForest vs lgb

0

15

1

전처리 관련질문

0

9

2

작업형3 기출

0

8

1

유형2에서 데이터분할 생략 가능여부

0

16

2

9회 기출 유형3 질문

0

12

1

lgb 기초편

0

8

1

괄호 사용

0

12

1

작업형 2 데이터 전처리 질문

0

16

1

11회 기출 유형 작업형1 문제 3-1

0

11

0

예시문제 작업형2 (ver2023) 질문입니다

0

14

1

Data type에 따른 처리

0

12

2

데이터 전처리 관련

0

14

2

시험에서 문제 불러오기

0

14

2

2번문제 출력값 질문

0

18

2

pd.get_dummies()가 bool로 반환

0

16

2

대응표본검정 레빈

0

20

3

단일표본검정 문제 유형

0

22

2

[작업형 3] 6~7. 카이제곱 검정

0

18

2

9회 작업형3 문제 1-1

0

36

2

최종답안 계산 방식 질문

0

22

1

시험 치기 전 급하게 질문 사항

0

38

2

유형3

0

30

2