inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 기출문제 3회 질문

해결된 질문

232

고혜빈

작성한 질문수 1

0

# 수치형 데이터와 범주형 데이터 분리 
n_train = train.select_dtypes(exclude='object').copy()
c_train = train.select_dtypes(include='object').copy()
n_test = test.select_dtypes(exclude='object').copy()
c_test = test.select_dtypes(include='object').copy()

# 수치형 변수 스케일링 (로버스트)
from sklearn.preprocessing import RobustScaler
scaler = RobustScaler()
cols = ['Age', 'AnnualIncome', 'FamilyMembers', 'ChronicDiseases']

display(n_train.head())
n_train[cols] = scaler.fit_transform(n_train[cols])
n_test[cols] = scaler.transform(n_test[cols])
n_train.head()

# 범주형 변수 인코딩(원핫 인코딩)
display(c_train.head())
c_train = pd.get_dummies(c_train)
c_test = pd.get_dummies(c_test)
c_train.head()

# 분리한 데이터 다시 합침
train = pd.concat([n_train, c_train], axis=1)
test = pd.concat([n_test, c_test], axis=1)
print(train.shape, test.shape)
train.head()

수치형/범주형 데이터 분리를 시행하는데,

무조건 분리 후 시행해야 하는지 질문드립니다.

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

1

퇴근후딴짓

아닙니다. 분리하지 않고 train = pd.get_dummies(train) 으로 그대로 사용해주세요:)

4회 이후 기출 유형풀이에서는 분리하지 않고 설명하고 있어요!

 

why?

기초 과정에서 이렇게 다뤘던 이유는 추후 문제 난이도가 올라가면서 수치형이지만 범주형 데이터인 문제들이 출제 되는 것을 감안했던 것이었는데 작업형2의 경우 아직 고민해서 전처리할 정도의 난이도로 올라가진 않고 있어요!

작업형2 카테고리

0

8

1

110강 회귀_8번 문의

0

9

2

XGBRegressor 학습 시 warning 출력

0

13

2

데이터 프레임을 변경해도 되나요?

0

10

2

10회 기출 작업형3 문제 2-1 질문

0

15

2

작업형 2 질문

0

15

2

작업형 2 템플릿 확인 요청

0

13

2

작업형2 인코딩 질문

0

22

2

작업형 3 벼락치기 공부방법 질문

0

30

2

기출 11회 작업형 2_전체 데이터 학습 여부

0

31

2

예측값 결과 소수점 차이

0

28

2

기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?

0

35

1

전처리 train() test([ ])

0

23

2

작업형 1 배경지식 질문

0

33

2

옳게 풀은건지 질문드립니다!

0

22

1

roc_auc_score

0

30

2

추가질문 합니다

0

22

2

시험환경 구름

0

21

2

2유형 질문드려요

0

21

2

RandomForest vs lgb

0

28

2

전처리 관련질문

0

29

3

작업형3 기출

0

20

2

유형2에서 데이터분할 생략 가능여부

0

33

2

9회 기출 유형3 질문

0

21

2