• 카테고리

    질문 & 답변
  • 세부 분야

    자격증 (데이터 사이언스)

  • 해결 여부

    해결됨

섹션6 모의고사 풀어보기 2 관련

23.11.27 23:32 작성 조회수 272

1

안녕하세요! 모의고사2 관련 질문입니다.

수업에서 배운대로 pd.get_dummies로 원핫 인코딩을 했는데요..

파일을 합쳐서 원핫인코딩을 하고나니 원래 있던 다른 수치형 컬럼들이 다 없어지고 원핫으로 만든 컬럼들만 남더라구요;;

이렇게 되면 파일 다시 나누고 모델학습할떄 원핫으로 만든 컬럼들만 남아서 안될것같은데

제가 코드를 잘못친걸까요..? 전체 코드는 아래에 붙여놓았습니다.

 

# 시험환경 세팅

import pandas as pd

from sklearn import datasets

dataset = datasets.load_breast_cancer()

df = pd.DataFrame(dataset['data'], columns=dataset['feature_names'])

df['target'] = dataset['target']

df.to_csv("data2.csv", index=False)

 

from sklearn.model_selection import train_test_split

train, test = train_test_split(df, test_size=0.2, random_state=2022)

y_test = test.pop('target')

train.to_csv('train.csv', index=False)

test.to_csv('test.csv', index=False)

 

# 데이터 파일 읽기 예제

import pandas as pd

train = pd.read_csv("data/customer_train.csv")

test = pd.read_csv("data/customer_test.csv")

 

#EDA

# print(train.shape, test.shape) (3500, 11) (2482, 10)

# print(train['성별'].value_counts())    0    2184    1    1316

# print(train.info(), test.info()) object=주구매상품, 주구매지점

# print(train.isnull().sum(), test.isnull().sum()) 결측치는 환불금액 2295 / 1611

# print(train['환불금액'].describe())

pd.set_option('display.max_columns',None)

#결측치

train['환불금액'] = train['환불금액'].fillna(0)

test['환불금액'] = test['환불금액'].fillna(0)

# print(train.isnull().sum(), test.isnull().sum())

 

#파일 나누기

target = train.pop('성별')

# print(train.shape, target.shape)

train =train.drop('회원ID', axis=1)

# print(train.shape)

id = test.pop('회원ID')

# print(test.shape, id.shape)

# print(train.shape, test.shape)

 

#피쳐 엔지니어링

#1.베이스라인

 

#2. 인코딩

# print(train.describe(include='O'),test.describe(include='O') )

# TRAIN 주구매상품에 소형가전이 추가로 있음

# a = set(train['주구매지점'].unique())

# b = set(test['주구매지점'].unique())

# print (a-b)

# print (b-a)

 

all_df=pd.concat([train,test])

cols = ['주구매상품', '주구매지점']

all_df=pd.get_dummies(all_df[cols])

print(all_df.head()) -> 여기서 원핫인코딩 한 이후로 원래 있던 수치형 컬럼들이 다 사라졌습니다;

 

# print(train.columns)

 

# from sklearn.preprocessing import LabelEncoder

# for col in cols :

#         le = LabelEncoder()

#         train[col] = le.fit_transform(train[col])

#         test[col] = le.transform(test[col])

 

# print(train.head(), test.head())

 

 

# cols = ['주구매상품', '주구매지점']

# cols = ['총구매액', '최대구매액', '환불금액', '방문일수', '방문당구매건수', '주말방문비율', '구매주기']

# print(train.select_dtypes(exclude='object').columns)

 

#데이터 분할

# from sklearn.model_selection import train_test_split

# x_tr,x_val,y_tr,y_val = train_test_split(train,target,test_size = 0.2, random_state =2024)

# print(x_tr.shape, x_val.shape, y_tr.shape, y_val.shape)

 

# #학습

# from sklearn.ensemble import RandomForestClassifier

# model = RandomForestClassifier(random_state=0)

# model.fit(x_tr,y_tr)

# pred = model.predict(x_val)

# # print(pred)

# print(pred.shape)

 

# # #평가 f1

# from sklearn.metrics import f1_score

# print(f1_score(y_val, pred))

 

# #베이스라인  0.4460093896713615

# #라벨인코딩 0.42352941176470593

# #원핫인코딩

 

 

답변 1

답변을 작성해보세요.

1

all_df=pd.get_dummies(all_df[cols])

위 코드를 아래 코드로 변경해주세요

위 코드는 이미 컬럼을 선택해서 다른 컬럼은 버리게 됩니다.

all_df = pd.get_dummies(all_df, columns=cols)

인코딩 관련 추가 영상을 제작했어요 확인 부탁드립니다.