inflearn logo
강의

講義

知識共有

[仕事終わりの趣味] ビッグデータ分析実技 (作業型1,2,3)

第4回 既出問題タイプ(作業型2)

옳게 풀은건지 질문드립니다!

1

taek2aek

投稿した質問数 1

0

안녕하세요! 2작업형의 대부분 문제를

#기본 전처리
cols = ['Gender','Ever_Married','Graduated','Profession','Spending_Score','Var_1']
train = train.drop('ID',axis=1)
test_id = test.pop('ID')

      
#레이블 인코딩
df = pd.concat([train,test])
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for col in cols:
    df[col] = le.fit_transform(df[col])
train = df.iloc[:len(train)].copy()
test = df.iloc[len(train):].copy()
test = test.drop('Segmentation',axis=1)

#원핫 인코딩
df = pd.concat([train,test])
df = pd.get_dummies(df,columns=cols)
train = df.iloc[:len(train)].copy()
test = df.iloc[len(train):].copy()
test = test.drop('Segmentation',axis=1)

#데이터나누기
from sklearn.model_selection import train_test_split
X_tr,X_val,y_tr,y_val = train_test_split(
    train.drop('Segmentation',axis=1),train['Segmentation'],test_size=0.2,random_state=2022
)

#랜포
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=2022)
rf.fit(X_tr,y_tr)
pred = rf.predict(X_val)

# #xgb
from xgboost import XGBClassifier
xgb = XGBClassifier(random_state=2022)
xgb.fit(X_tr,y_tr)
pred = xgb.predict(X_val)

#lgbm
from lightgbm import LGBMClassifier
lgb = LGBMClassifier(random_state=2022)
lgb.fit(X_tr,y_tr)
pred = lgb.predict(X_val)

#평가
from sklearn.metrics import f1_score
print('f1: ',f1_score(y_val,pred,average='macro'))

pred = lgb.predict(test)

result = pd.DataFrame ({
    'ID' : test_id,
    'Segmentation':pred.astype(int)
}).to_csv('result.csv',index=False)

diff = pd.read_csv('result.csv')
diff

 

위 템플릿을 활용하여 레이블 인코딩과 원핫인코딩 / 모델은 랜덤포레스트,xgb,lgbm까지 총 6가지 버전을 비교해 풀고 있는데, 이대로 풀어도 되는지 여쭤보고싶습니다!

python 머신러닝 빅데이터 pandas 빅데이터분석기사

回答 0

roc_auc_score

0

3

1

추가질문 합니다

0

10

1

시험환경 구름

0

10

1

2유형 질문드려요

0

8

1

RandomForest vs lgb

0

18

1

전처리 관련질문

0

13

2

작업형3 기출

0

12

1

유형2에서 데이터분할 생략 가능여부

0

20

2

9회 기출 유형3 질문

0

15

1

lgb 기초편

0

10

1

괄호 사용

0

15

1

작업형 2 데이터 전처리 질문

0

18

1

11회 기출 유형 작업형1 문제 3-1

0

16

0

예시문제 작업형2 (ver2023) 질문입니다

0

16

1

Data type에 따른 처리

0

15

2

데이터 전처리 관련

0

16

2

시험에서 문제 불러오기

0

18

2

2번문제 출력값 질문

0

23

2

pd.get_dummies()가 bool로 반환

0

18

2

대응표본검정 레빈

0

23

3

단일표본검정 문제 유형

0

23

2

[작업형 3] 6~7. 카이제곱 검정

0

23

2

9회 작업형3 문제 1-1

0

37

2

최종답안 계산 방식 질문

0

25

1