inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

모의고사 1유형

해결된 질문

145

서수영

작성한 질문수 5

0

 

모의고사 1회 입니다

아래 코드에 틀린건 없을까요?

최종적으로 제출할때 print는 여기에 1개만 있어야하는거죠?

print(roc_auc_score(y_val, pred[:,1])) 평가지표에 print 하면 안되는거맞죵? 확인부탁드립니다.

 

#기출1회

 

import pandas as pd

 

train = pd.read_csv("data/customer_train.csv")

test = pd.read_csv("data/customer_test.csv")

 

#***********************데이터확인

 

# print(train.shape, test.shape)

 

# print(train.head()) #target=성별

# print(test.head())

 

#문자형2개

# print(train.info())

 

#결측치 있음

# print(train.isnull().sum())

# 환불금액       2295

# print(test.isnull().sum())

# 환불금액       1611

 

 

#***********************전처리 *결합it인

 

#결측치제거/있음

train['환불금액']=train['환불금액'].fillna(0)

test['환불금액']=test['환불금액'].fillna(0)

 

#train합치기/없음

# pd.concat([X_train, y_train['성별']],axis=1)

 

#id없애기/있음

train= train.drop('회원ID',axis=1)

test_id= test.pop('회원ID')

 

#t타켓

target=train.pop('성별')

 

#인코딩

from sklearn.preprocessing import LabelEncoder

# from sklearn import preprocessing

# print(dir(preprocessing))

# print(help(preprocessing.LabelEncoder))

 

cols= train.select_dtypes(include='object').columns

 

for col in cols :

      le= LabelEncoder()

      train[col] = le.fit_transform(train[col])

      test[col] = le.transform(test[col])

 

#***********************분리

from sklearn.model_selection import train_test_split

from sklearn import model_selection

# print(dir(model_selection))

# print(help(model_selection.train_test_split))

X_tr, X_val, y_tr, y_val = train_test_split(

                                                                                                        train,

                                                                                                                             target,

                                                                                                                                      test_size=0.2,

                                                                                                                                      random_state=2022

)

 

#***********************모델

from sklearn.ensemble import RandomForestClassifier

# model= RandomForestClassifier(random_state=0)

model= RandomForestClassifier(random_state=0, max_depth=7, n_estimators=1000)

model.fit(X_tr, y_tr)

pred= model.predict_proba(X_val)

 

#***********************평가

from sklearn.metrics import roc_auc_score

# from sklearn import metrics

# print(dir(metrics))

# print(help(metrics.roc_auc_score))

print(roc_auc_score(y_val, pred[:,1]))

 

# 0.6186558526810393 (random_state=0)

# 0.6641618297401879 (random_state=0, max_depth=7, n_estimators=1000)

 

#***********************예측

pred= model.predict_proba(test)[:,1]

result= pd.DataFrame({

                                                                   'pred':pred

})

 

#***********************저장

result.to_csv('result.csv', index=False)

print(pd.read_csv('result.csv'))

 

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

0

퇴근후딴짓

네 정확합니다.

그리고 result.shape을 통해서 행의 수가 test와 일치하는지 체크하는 센스!! 필요합니다.

작업형3 target 형 변환 질문

0

0

0

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

3

1

원핫인코딩과 레이블 인코딩에서 concat

0

20

2

제2유형 질문입니다.

0

25

2

C()

0

22

2

작업형 2에서 strafity 적용 유무

0

28

2

수강 기간 연장 가능 여부 문의드립니다.

0

26

1

ols

0

26

2

2유형 작성관련 질문(일반 심화)

0

23

2

2유형 작성관련 질문

0

21

2

2유형 object컬럼 개수 다르면

0

25

2

코딩팡질문이요ㅠㅠ

0

23

2

관찰값과 기대값의 개념이 헷갈립니다.

0

13

2

작업형2 ID 컬럼 삭제 질문

0

23

2

2유형 작성관련 질문

0

21

2

memoryerror 질문

0

18

2

작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?

0

23

1

ID 삭제 필수 인가요?

0

21

3

7회 기출문제 작업형1번 df 변환 후 저장되는 방식 질문

0

20

2

3 유형 귀무가설, 대립가설

0

22

2

인코딩 관련 질문 있습니다

0

26

2

작업형3 이원분산분석 sm에서불러오기 / anova_lm 차이

0

31

2

2유형 원핫인코딩 오류

0

24

2

시험장에서 주석 단축키 안될 때 많나요?

0

29

2