inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(ver. 2023)

예시문제 작업형2(신버전) 질문있습니다

해결된 질문

454

이태경

작성한 질문수 3

1

roc_auc_score은 proba를 쓰는걸로 아는데

아래 코드에 어떤 문제가 있어서 에러가 뜨는지 궁금합니다

에러지점: pred=model.predict_proba(test)

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

0

퇴근후딴짓

안녕하세요 코드를

image코드 블럭 도구를 사용해서 부탁드립니다.

 

에러 메세지도 함께 주시면 찾아드릴게요!

0

이태경

import pandas as pd
train = pd.read_csv("data/customer_train.csv")
test = pd.read_csv("data/customer_test.csv")

# 전처리
train['환불금액'] = train['환불금액'].fillna(0)
test['환불금액'] = test['환불금액'].fillna(0)

cols = train.select_dtypes(include='object').columns

train = pd.get_dummies(train, columns = cols)
test = pd.get_dummies(test, columns = cols)

target = train.pop('성별')

from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 2022)

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(random_state=2022)
model.fit(X_tr, y_tr)
pred = model.predict_proba(X_val)

from sklearn.metrics import roc_auc_score
print(roc_auc_score(y_val, pred[:,1]))

pred = model.predict_proba(test)
submit = pd.DataFrame({
	'pred': pred[:,1]
})
submit.to_csv('00000.csv', index=False)

0

이태경

프로세스가 시작되었습니다.(입력값을 직접 입력해 주세요)
> 0.6415146489773355
Makefile:6: recipe for target 'py3_run' failed
make: *** [py3_run] Error 1
Traceback (most recent call last):
  File "/goorm/Main.out", line 33, in <module>
    pred = model.predict_proba(test)
  File "/usr/local/lib/python3.9/dist-packages/sklearn/ensemble/_forest.py", line 674, in predict_proba
    X = self._validate_X_predict(X)
  File "/usr/local/lib/python3.9/dist-packages/sklearn/ensemble/_forest.py", line 422, in _validate_X_predict
    return self.estimators_[0]._validate_X_predict(X, check_input=True)
  File "/usr/local/lib/python3.9/dist-packages/sklearn/tree/_classes.py", line 407, in _validate_X_predict
    X = self._validate_data(X, dtype=DTYPE, accept_sparse="csr",
  File "/usr/local/lib/python3.9/dist-packages/sklearn/base.py", line 437, in _validate_data
    self._check_n_features(X, reset=reset)
  File "/usr/local/lib/python3.9/dist-packages/sklearn/base.py", line 365, in _check_n_features
    raise ValueError(
ValueError: X has 73 features, but DecisionTreeClassifier is expecting 74 features as input.

프로세스가 종료되었습니다.

1

퇴근후딴짓

컬럼의 수가 다르네요

인코딩 후에 달라졌습니다.

레이블인코딩 또는 합쳐서 인코딩하면됩니다

 

인코딩 추가 영상 (커리큘럼 하단)을 참고해주세요

0

이태경

아하 감사합니다!!

작업형2 모의문제1 (30강)

0

18

1

수강 기간 연장 문의 드립니다.

0

21

1

수강 계획과 관련해 문의 드립니다.

0

19

1

작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?

0

44

2

작업형 1 -연습문제 4-6

0

32

2

작업형 1 유형 부분

0

39

2

작업형 1 (삭제예정, 구 버전)

0

50

2

수강기간 연장 문의드립니다.

0

35

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

36

3

수강기간 연장 문의드립니다.

0

38

1

인덱스 슬라이싱

0

35

2

질문 드립니다.

0

49

2

강의 내용 관련 질문드립니다~

0

46

2

수강 연장 문의

0

63

2

강의자료 일괄 다운로드

0

58

2

수강기간 연장 문의드립니다

0

47

2

list 문제 질문드립니다~

0

38

2

빅분기 실기 12회 재도전

0

62

2

강의 기간 연장 가능여부 검토 요청건

0

49

2

수강기간 연장 문의 드립니다

0

45

2

수강기간 연장 문의드립니다

0

52

2

질문이요

0

57

2

수강기간 연장 문의드립니다.

0

60

2

문제 3-2 질문드립니다

0

47

2