inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(ver. 2023)

예시문제 작업형 2번

해결된 질문

189

김주원

작성한 질문수 4

0

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
train = pd.read_csv("data/customer_train.csv") #3500
test = pd.read_csv("data/customer_test.csv") #2482

train['환불금액'] = train['환불금액'].fillna(0)
test['환불금액'] = test['환불금액'].fillna(0)
#print(train.isnull().sum().sum())
cols = ['회원ID','총구매액','최대구매액','환불금액','방문일수','방문당구매건수','주말방문비율','구매주기']

target = train.pop('성별')
#용자 코딩
#print(train['성별'].value_counts()) #여2남1
train = pd.get_dummies(train)
test = pd.get_dummies(test)


xtr,xval,ytr,yval = train_test_split(train[cols],target,test_size = 0.2, random_state = 0)
print(xtr.shape,xval.shape,ytr.shape,yval.shape)

rf = RandomForestClassifier()
rf.fit(xtr[cols],ytr)
pred = rf.predict_proba(xval[cols])

pred = rf.predict_proba(test[cols])
submit = pd.DataFrame({'pred':pred[:,1]})

submit.to_csv('result.csv',index=False)
result=pd.read_csv('result.csv')
print(result.shape)
print(result.head())


강의에서처럼 마지막 제출 pred 변수 만들 때 rf.predict_proba(test) 하니까 안만들어져서 rf.predict_proba(test[cols])로 생성했는데, 맞게 코딩한건가요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

0

퇴근후딴짓

학습할 때

rf.fit(xtr[cols],ytr) 로 cols 컬럼만 사용했기 때문에

예측할 때도rf.predict_proba(test[cols])로 사용하는 것이에요

 

학습을

rf.fit(xtr,ytr)로 진행하고, rf.predict_proba(test)로 예측하면 됩니다.

원핫인코딩과 레이블 인코딩에서 concat

0

11

2

제2유형 질문입니다.

0

22

2

C()

0

19

2

작업형 2에서 strafity 적용 유무

0

27

2

수강 기간 연장 가능 여부 문의드립니다.

0

21

1

ols

0

22

2

2유형 작성관련 질문(일반 심화)

0

22

2

2유형 작성관련 질문

0

19

2

2유형 object컬럼 개수 다르면

0

23

2

코딩팡질문이요ㅠㅠ

0

23

2

관찰값과 기대값의 개념이 헷갈립니다.

0

13

2

작업형2 ID 컬럼 삭제 질문

0

23

2

2유형 작성관련 질문

0

21

2

memoryerror 질문

0

18

2

작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?

0

22

1

ID 삭제 필수 인가요?

0

19

3

7회 기출문제 작업형1번 df 변환 후 저장되는 방식 질문

0

16

2

3 유형 귀무가설, 대립가설

0

21

2

인코딩 관련 질문 있습니다

0

24

2

작업형3 이원분산분석 sm에서불러오기 / anova_lm 차이

0

29

2

2유형 원핫인코딩 오류

0

24

2

시험장에서 주석 단축키 안될 때 많나요?

0

29

2

라벨인코딩 방식

0

29

2

test 재학습 관련

0

19

2