인프런 영문 브랜드 로고
인프런 영문 브랜드 로고
BEST
데이터 사이언스

/

데이터 사이언스 자격증

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

비전공자, 입문자가 빅데이터 분석기사 실기를 빠르게 취득할 수 있도록 안내해드려요! 이론은 가볍게, 실전은 확실하게 복잡한 배경지식 없이도, 기출문제를 중심으로 시험에 꼭 나오는 포인트만 집중 학습합니다.

(4.9) 수강평 296개

수강생 3,310명

새소식 목록
관리
작성
퇴근후딴짓님의 프로필 이미지

수정됨

범주형 변수(카테고리형 변수)가 동일한지 확인하는 방법

범주형 변수 카테고리가 같은지 다른지 간단하게 확인하는 방법입니다.

반복문을 사용하면 좋겠지만 단순하게 작성했어요.

import pandas as pd

# 예제 데이터프레임 생성
df1 = pd.DataFrame({
    'col1': ['A', 'B', 'A', 'C'],
    'col2': ['X', 'Y', 'X', 'Z'],
    'col3': ['A', 'B', 'A', 'B'],
})

df2 = pd.DataFrame({
    'col1': ['A', 'B', 'C', 'D'],
    'col2': ['X', 'Y', 'Z', 'W'],
    'col3': ['A', 'A', 'A', 'B'],
})


print(set(df1['col1']) == set(df2['col1']))
print(set(df1['col2']) == set(df2['col2']))
print(set(df1['col3']) == set(df2['col3']))

False가 나온다면

합쳐서 인코딩이 필요합니다.

# Train과 Test 결합
df = pd.concat([train, test], axis=0)

# 원-핫 인코딩 적용
df = pd.get_dummies(df)

# 다시 Train과 Test로 분리
train = df.iloc[:len(train)]
tes = df.iloc[len(train):]
댓글