inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

4회 기출 유형(작업형2)

4회 기출 유형(작업형2) 질문

해결된 질문

574

김태범

작성한 질문수 15

1

안녕하세요 강사님 아래와 같이 코드를 짜보고 강의를 들었는데

  1. 저는 train_test_split을 썼으므로 강의에서와 같이

target = train.pop('Segmentation') 과정이 필요없는게 맞나요?

  1. 아래는 제가 짠 코드이고 leaderboard 점수 0.30927입니다. 이정도 점수면 충분할까요?

  2. 제가 아래 코드에

from sklearn.metrics import roc_auc_score 
print(roc_auc_score(y_val, pred) 

를 추가할시 아래와 같은 에러코드가 납니다. 자체적으로 평가점수를 보고싶어서 추가해보았는데 왜 이런문제가 생기는걸까요?

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
/tmp/ipykernel_27/2182156644.py in <module>
     28 
     29 from sklearn.metrics import roc_auc_score
---> 30 print(roc_auc_score(y_val, pred))
     31 
     32 

/opt/conda/lib/python3.7/site-packages/sklearn/metrics/_ranking.py in roc_auc_score(y_true, y_score, average, sample_weight, max_fpr, multi_class, labels)
    558             )
    559         if multi_class == "raise":
--> 560             raise ValueError("multi_class must be in ('ovo', 'ovr')")
    561         return _multiclass_roc_auc_score(
    562             y_true, y_score, labels, multi_class, average, sample_weight

ValueError: multi_class must be in ('ovo', 'ovr')
import pandas as pd
train = pd.read_csv("../input/big-data-analytics-certification-kr-2022/train.csv")
test = pd.read_csv("../input/big-data-analytics-certification-kr-2022/test.csv")

cols = ['Gender', 'Ever_Married', 'Graduated', 'Profession', 'Spending_Score', 'Var_1']
from sklearn.preprocessing import LabelEncoder
for col in cols:
    le = LabelEncoder()
    train[col] = le.fit_transform(train[col])
    test[col] = le.transform(test[col])

train = train.drop('ID', axis =1)
test_id = test.pop('ID')

from sklearn.model_selection import train_test_split

X_tr, X_val, y_tr, y_val = train_test_split(
                                           train.drop(['Segmentation'],axis =1),
                                           train['Segmentation'],
                                           test_size = 0.2,
                                           random_state = 2023)

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_tr, y_tr)
pred = model.predict(X_val)


pred = model.predict(test)
 
submit = pd.DataFrame({
                        'ID': test_id,
                        'Segmentation' : pred })
submit.to_csv("submission.csv", index = False)

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

1

퇴근후딴짓

  1. train_test_split 괄호 안에 작성한 것을 말한다면 타겟값을 지정하였으므로 문제가 없어보입니다.💪

  2. 점수 가이드라인은 공개된 적이 없어 적정선을 언급하긴 어려울 것 같아요. 🙏

  3. roc-auc를 다중 클래스에서 사용한다면 파라미터를 하나 추가해야 합니다. 문제에서 요구하는 방식으로 평가를 진행해주세요 :)

    roc_auc_score(y_val, pred, multi_class='ovo') #일대일
    roc_auc_score(y_val, pred, multi_class='ovr') #일대다

     

불균형 처리 후 성능이 더 낮아졌다면,

0

0

0

실기 체험 제2유형 에러 문의

0

4

0

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

6

1

3번문제 등분산 가정

0

17

2

작업형3 target 형 변환 질문

0

15

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

14

3

원핫인코딩과 레이블 인코딩에서 concat

0

26

2

제2유형 질문입니다.

0

30

2

C()

0

28

2

작업형 2에서 strafity 적용 유무

0

30

2

수강 기간 연장 가능 여부 문의드립니다.

0

35

1

ols

0

27

2

2유형 작성관련 질문(일반 심화)

0

25

2

2유형 작성관련 질문

0

23

2

2유형 object컬럼 개수 다르면

0

29

2

코딩팡질문이요ㅠㅠ

0

26

2

관찰값과 기대값의 개념이 헷갈립니다.

0

15

2

작업형2 ID 컬럼 삭제 질문

0

26

2

2유형 작성관련 질문

0

22

2

memoryerror 질문

0

19

2

작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?

0

26

1

ID 삭제 필수 인가요?

0

26

3

7회 기출문제 작업형1번 df 변환 후 저장되는 방식 질문

0

21

2

3 유형 귀무가설, 대립가설

0

23

2