비전공자, 입문자가 빅데이터 분석기사 실기를 빠르게 취득할 수 있도록 안내해드려요! 이론은 가볍게, 실전은 확실하게 복잡한 배경지식 없이도, 기출문제를 중심으로 시험에 꼭 나오는 포인트만 집중 학습합니다.
범주형 변수(카테고리형 변수)가 동일한지 확인하는 방법
범주형 변수 카테고리가 같은지 다른지 간단하게 확인하는 방법입니다.
반복문을 사용하면 좋겠지만 단순하게 작성했어요.
import pandas as pd
# 예제 데이터프레임 생성
df1 = pd.DataFrame({
'col1': ['A', 'B', 'A', 'C'],
'col2': ['X', 'Y', 'X', 'Z'],
'col3': ['A', 'B', 'A', 'B'],
})
df2 = pd.DataFrame({
'col1': ['A', 'B', 'C', 'D'],
'col2': ['X', 'Y', 'Z', 'W'],
'col3': ['A', 'A', 'A', 'B'],
})
print(set(df1['col1']) == set(df2['col1']))
print(set(df1['col2']) == set(df2['col2']))
print(set(df1['col3']) == set(df2['col3']))
False가 나온다면
합쳐서 인코딩이 필요합니다.
# Train과 Test 결합
df = pd.concat([train, test], axis=0)
# 원-핫 인코딩 적용
df = pd.get_dummies(df)
# 다시 Train과 Test로 분리
train = df.iloc[:len(train)]
tes = df.iloc[len(train):]