작업형 2유형 원핫 인코딩 수행 후

Question

작업형 2유형 원핫인코딩 수행 후 훈련 데이터와 테스트데이터의 컬럼수가 안맞아서 컬럼 갯수가 적은 데이터 기준으로 컬럼 순서와 갯수를 맞춰주고 모델을 학습시키는데 상관 없을까요??(분류문제)

퇴근후딴짓 · Answer

문제는 없을 것 같아요. 다만 이방식으로 했을 때 만약에 중요 피처(원핫인코딩 후 특정 카테고리)가 삭제된다면? 이란 생각이 드네요~ import pandas as pd # 예제 데이터프레임 생성 df = pd.DataFrame({ 'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9] }) dftest = pd.DataFrame({ 'B': [10, 11, 12], 'C': [13, 14, 15], 'D': [16, 17, 18] }) # 두 데이터프레임의 컬럼 교집합을 구함 common_columns = df.columns.intersection(dftest.columns) # 교집합에 해당하는 컬럼만 선택하여 데이터프레임 재구성 df = df[common_columns] dftest = dftest[common_columns] print("df:") print(df) print("dftest:") print(dftest) 결과 프로세스가 시작되었습니다.(입력값을 직접 입력해 주세요) > df: B C 0 4 7 1 5 8 2 6 9 dftest: B C 0 10 13 1 11 14 2 12 15 프로세스가 종료되었습니다.

김동현 · Answer

cond = df.columns.intersection(dftest.columns) df = df[cond] dftest = dftest[cond] print(df.shape, dftest.shape) 위 코드로 보통 수행합니다

퇴근후딴짓 · Answer

동현님이 맞춘다는 것이 어떤 방식으로 맞추는 것일까요? 코드로 보여주실 수 있을까요?