inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 정리한 내용 확인 부탁드립니다 ㅜㅜ

35

김휘

작성한 질문수 1

0

###데이터전처리

(범주형 데이터 수 많은데 카테고리 다를 때 삭제, 비행기 문제 생각)

train = train.drop(‘컬럼명’, axis=1)

test = test.drop(‘컬럼명’, axis=1)

결측치 채우기 (범주형)

cond_o = ['범주형컬럼명1',‘컬럼명2’...]

train[cond_o]=train[cond_o].fillna("X")

test[cond_o]=test[cond_o].fillna("X")

결측치 채우기 (수치형, 0/중앙값/최소값/평균 등 데이터에 맞게)

cond_f = ['컬럼명1‘,’컬럼명2'...]

train[cond_f]=train[cond_f].fillna(0)

test[cond_f]=test[cond_f].fillna(0)

target = train.pop(‘타겟컬럼명’)

 

###인코딩

print(train.shape, test.shape)

train = pd.get_dummies(train)

test = pd.get_dummies(test)

print(train.shape, test.shape)

 

(범주형 카테고리 다르면 합쳐서 원핫인코딩 진행)

print(train.shape, test.shape)

concat = pd.concat([train,test])

concat_dummies = pd.get_dummies(concat)

n_train = len(train)

train = concat_dummies[:n_train]

test = concat_dummies[n_train:]

print(train.shape, test.shape)


###하이퍼파라미터

class_weight='balanced' : 타겟 데이터 불균형일 때 사용

max_depth : 3~7(분류) 7~12(회귀)

n_estimators : 200~600 (100단위)

learning_rate : n_estimators 와 반비례하게 사용 - 0.01~0.1 (랜덤포레스트에서 적용 안됨)



이렇게 정리해서 외워도 될까요??

하이퍼파라미터는 각각 어떤 상황에 사용해야 하는지 잘 모르겠습니다ㅠㅠ


python 머신러닝 빅데이터 pandas

답변 1

0

퇴근후딴짓

좋습니다 :) 다만

max_depth : 3~7(분류) 7~12(회귀)

n_estimators : 200~600 (100단위)


이것 튜닝 보다는 그대로 두시고

러이트지비엠과 랜덤포레스트 모델을 2개 비교해 보시죠!!

0

김휘

넵 감사합니다!!!

작업형2 카테고리

0

3

1

110강 회귀_8번 문의

0

8

2

XGBRegressor 학습 시 warning 출력

0

11

2

데이터 프레임을 변경해도 되나요?

0

9

2

10회 기출 작업형3 문제 2-1 질문

0

14

2

작업형 2 질문

0

13

2

작업형 2 템플릿 확인 요청

0

12

2

작업형2 인코딩 질문

0

22

2

작업형 3 벼락치기 공부방법 질문

0

30

2

기출 11회 작업형 2_전체 데이터 학습 여부

0

30

2

예측값 결과 소수점 차이

0

26

2

기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?

0

34

1

전처리 train() test([ ])

0

23

2

작업형 1 배경지식 질문

0

31

2

옳게 풀은건지 질문드립니다!

0

21

1

roc_auc_score

0

29

2

추가질문 합니다

0

22

2

시험환경 구름

0

19

2

2유형 질문드려요

0

20

2

RandomForest vs lgb

0

27

2

전처리 관련질문

0

29

3

작업형3 기출

0

19

2

유형2에서 데이터분할 생략 가능여부

0

32

2

9회 기출 유형3 질문

0

21

2