inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(ver. 2023)

예시문제 작업형2(신버전) 질문있습니다

해결된 질문

462

이태경

작성한 질문수 3

1

roc_auc_score은 proba를 쓰는걸로 아는데

아래 코드에 어떤 문제가 있어서 에러가 뜨는지 궁금합니다

에러지점: pred=model.predict_proba(test)

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

0

퇴근후딴짓

안녕하세요 코드를

image코드 블럭 도구를 사용해서 부탁드립니다.

 

에러 메세지도 함께 주시면 찾아드릴게요!

0

이태경

import pandas as pd
train = pd.read_csv("data/customer_train.csv")
test = pd.read_csv("data/customer_test.csv")

# 전처리
train['환불금액'] = train['환불금액'].fillna(0)
test['환불금액'] = test['환불금액'].fillna(0)

cols = train.select_dtypes(include='object').columns

train = pd.get_dummies(train, columns = cols)
test = pd.get_dummies(test, columns = cols)

target = train.pop('성별')

from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 2022)

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(random_state=2022)
model.fit(X_tr, y_tr)
pred = model.predict_proba(X_val)

from sklearn.metrics import roc_auc_score
print(roc_auc_score(y_val, pred[:,1]))

pred = model.predict_proba(test)
submit = pd.DataFrame({
	'pred': pred[:,1]
})
submit.to_csv('00000.csv', index=False)

0

이태경

프로세스가 시작되었습니다.(입력값을 직접 입력해 주세요)
> 0.6415146489773355
Makefile:6: recipe for target 'py3_run' failed
make: *** [py3_run] Error 1
Traceback (most recent call last):
  File "/goorm/Main.out", line 33, in <module>
    pred = model.predict_proba(test)
  File "/usr/local/lib/python3.9/dist-packages/sklearn/ensemble/_forest.py", line 674, in predict_proba
    X = self._validate_X_predict(X)
  File "/usr/local/lib/python3.9/dist-packages/sklearn/ensemble/_forest.py", line 422, in _validate_X_predict
    return self.estimators_[0]._validate_X_predict(X, check_input=True)
  File "/usr/local/lib/python3.9/dist-packages/sklearn/tree/_classes.py", line 407, in _validate_X_predict
    X = self._validate_data(X, dtype=DTYPE, accept_sparse="csr",
  File "/usr/local/lib/python3.9/dist-packages/sklearn/base.py", line 437, in _validate_data
    self._check_n_features(X, reset=reset)
  File "/usr/local/lib/python3.9/dist-packages/sklearn/base.py", line 365, in _check_n_features
    raise ValueError(
ValueError: X has 73 features, but DecisionTreeClassifier is expecting 74 features as input.

프로세스가 종료되었습니다.

1

퇴근후딴짓

컬럼의 수가 다르네요

인코딩 후에 달라졌습니다.

레이블인코딩 또는 합쳐서 인코딩하면됩니다

 

인코딩 추가 영상 (커리큘럼 하단)을 참고해주세요

0

이태경

아하 감사합니다!!

출력값 질문

0

9

1

수업노트가 어디에 있나요?

0

19

1

실기시험 제출관련

0

152

2

6.20 작업형 2 과적합

0

157

3

코딩팡 장업형2 베이스 라인 인코딩 종류 질문

0

49

2

로지스틱회귀, 회귀

0

48

2

회귀 문제를 풀때 질문입니다.

0

55

1

불균형 처리 후 성능이 더 낮아졌다면,

0

61

2

실기 체험 제2유형 에러 문의

0

61

1

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

50

2

3번문제 등분산 가정

0

48

2

작업형3 target 형 변환 질문

0

35

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

36

3

원핫인코딩과 레이블 인코딩에서 concat

0

59

2

제2유형 질문입니다.

0

46

2

C()

0

44

2

작업형 2에서 strafity 적용 유무

0

52

2

수강 기간 연장 가능 여부 문의드립니다.

0

61

1

ols

0

43

2

2유형 작성관련 질문(일반 심화)

0

39

2

2유형 작성관련 질문

0

41

2

2유형 object컬럼 개수 다르면

0

48

2

코딩팡질문이요ㅠㅠ

0

45

2

관찰값과 기대값의 개념이 헷갈립니다.

0

25

2