작업형2 정리한 내용 확인 부탁드립니다 ㅜㅜ
35
작성한 질문수 1
###데이터전처리
(범주형 데이터 수 많은데 카테고리 다를 때 삭제, 비행기 문제 생각)
train = train.drop(‘컬럼명’, axis=1)
test = test.drop(‘컬럼명’, axis=1)
결측치 채우기 (범주형)
cond_o = ['범주형컬럼명1',‘컬럼명2’...]
train[cond_o]=train[cond_o].fillna("X")
test[cond_o]=test[cond_o].fillna("X")
결측치 채우기 (수치형, 0/중앙값/최소값/평균 등 데이터에 맞게)
cond_f = ['컬럼명1‘,’컬럼명2'...]
train[cond_f]=train[cond_f].fillna(0)
test[cond_f]=test[cond_f].fillna(0)
target = train.pop(‘타겟컬럼명’)
###인코딩
print(train.shape, test.shape)
train = pd.get_dummies(train)
test = pd.get_dummies(test)
print(train.shape, test.shape)
(범주형 카테고리 다르면 합쳐서 원핫인코딩 진행)
print(train.shape, test.shape)
concat = pd.concat([train,test])
concat_dummies = pd.get_dummies(concat)
n_train = len(train)
train = concat_dummies[:n_train]
test = concat_dummies[n_train:]
print(train.shape, test.shape)
###하이퍼파라미터
class_weight='balanced' : 타겟 데이터 불균형일 때 사용
max_depth : 3~7(분류) 7~12(회귀)
n_estimators : 200~600 (100단위)
learning_rate : n_estimators 와 반비례하게 사용 - 0.01~0.1 (랜덤포레스트에서 적용 안됨)
이렇게 정리해서 외워도 될까요??
하이퍼파라미터는 각각 어떤 상황에 사용해야 하는지 잘 모르겠습니다ㅠㅠ
답변 1
작업형2 카테고리
0
3
1
110강 회귀_8번 문의
0
8
2
XGBRegressor 학습 시 warning 출력
0
11
2
데이터 프레임을 변경해도 되나요?
0
9
2
10회 기출 작업형3 문제 2-1 질문
0
14
2
작업형 2 질문
0
13
2
작업형 2 템플릿 확인 요청
0
12
2
작업형2 인코딩 질문
0
22
2
작업형 3 벼락치기 공부방법 질문
0
30
2
기출 11회 작업형 2_전체 데이터 학습 여부
0
30
2
예측값 결과 소수점 차이
0
26
2
기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?
0
34
1
전처리 train() test([ ])
0
23
2
작업형 1 배경지식 질문
0
31
2
옳게 풀은건지 질문드립니다!
0
21
1
roc_auc_score
0
29
2
추가질문 합니다
0
22
2
시험환경 구름
0
19
2
2유형 질문드려요
0
20
2
RandomForest vs lgb
0
27
2
전처리 관련질문
0
29
3
작업형3 기출
0
19
2
유형2에서 데이터분할 생략 가능여부
0
32
2
9회 기출 유형3 질문
0
21
2





