inflearn logo
강의

Khóa học

Chia sẻ kiến thức

[Làm gì sau giờ làm] Chứng chỉ Phân tích Dữ liệu lớn - Kỳ thi thực hành (Dạng bài tập 1, 2, 3)

작업형2 정리한 내용 확인 부탁드립니다 ㅜㅜ

5

kimhui6299769

1 câu hỏi đã được viết

0

###데이터전처리

(범주형 데이터 수 많은데 카테고리 다를 때 삭제, 비행기 문제 생각)

train = train.drop(‘컬럼명’, axis=1)

test = test.drop(‘컬럼명’, axis=1)

결측치 채우기 (범주형)

cond_o = ['범주형컬럼명1',‘컬럼명2’...]

train[cond_o]=train[cond_o].fillna("X")

test[cond_o]=test[cond_o].fillna("X")

결측치 채우기 (수치형, 0/중앙값/최소값/평균 등 데이터에 맞게)

cond_f = ['컬럼명1‘,’컬럼명2'...]

train[cond_f]=train[cond_f].fillna(0)

test[cond_f]=test[cond_f].fillna(0)

target = train.pop(‘타겟컬럼명’)

 

###인코딩

print(train.shape, test.shape)

train = pd.get_dummies(train)

test = pd.get_dummies(test)

print(train.shape, test.shape)

 

(범주형 카테고리 다르면 합쳐서 원핫인코딩 진행)

print(train.shape, test.shape)

concat = pd.concat([train,test])

concat_dummies = pd.get_dummies(concat)

n_train = len(train)

train = concat_dummies[:n_train]

test = concat_dummies[n_train:]

print(train.shape, test.shape)


###하이퍼파라미터

class_weight='balanced' : 타겟 데이터 불균형일 때 사용

max_depth : 3~7(분류) 7~12(회귀)

n_estimators : 200~600 (100단위)

learning_rate : n_estimators 와 반비례하게 사용 - 0.01~0.1 (랜덤포레스트에서 적용 안됨)



이렇게 정리해서 외워도 될까요??

하이퍼파라미터는 각각 어떤 상황에 사용해야 하는지 잘 모르겠습니다ㅠㅠ


python 머신러닝 빅데이터 pandas

Câu trả lời 0

수강 연장 문의

0

4

2

14강 "" 사용 관련 질문

0

12

2

캐글 제출 점수

0

16

2

기출 마무리 방법

0

36

2

빅이시 작업형2 기초 - 케이스 1~3 관련 문의

0

23

2

데이터프레임 슬라이싱 인덱싱 질문2

0

22

2

단일표본검정, 샤피로검정, 윌콕슨검정

0

29

2

강의자료 다운로드 여부

0

30

2

문제에 첨부된 예시와 실제 출력된 샘플 비교

0

27

2

원핫 인코딩 관련

0

37

2

타겟 분리

0

33

2

Id 삭제

0

41

2

roc_auc_score 질문: 작업형2 모의문제3 09분 48초

0

37

2

원핫인코딩 코드 질문

0

35

2

map 함수 사용 필수적인가요

0

45

2

수강 기한 연장 문의드립니다.

0

50

2

34강 평가지표

0

36

2

103강 작업2형 전처리(레이블인코딩 부분) 오류

0

26

3

작업형1_section14 문의

0

23

2

작업형1_연습문제 7번 관련입니다.

0

27

2

데이터 프레임 슬라이싱 혹은 데이터 선택하기가 어렵습니다.

0

27

2

크로스 밸리데이션 질문

0

33

2

로지스틱 회귀분석 질문

0

32

2

수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?

0

32

2