inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

레이블인코딩 (카테고리)

17

Eunji Kim

작성한 질문수 1

0

초보자 질문 드립니다.

퇴근후 딴짓님의 빅분기 실기책 이직여부 예측 문제(p.294)관련 질문입니다.

 

# 레이블 인코딩
from sklearn.preprocessing import LabelEncoder
combined = pd.concat([train, test])
cols = train.select_dtypes(include='object').columns

for col in cols:
    le = LabelEncoder()
    combined[col] = le.fit_transform(combined[col])

n_train = len(train)
train = combined[:n_train]
test = combined[n_train:]

코드 위에서 세번째 줄, cols 불러올 때 combined이 아닌 train 으로 한 이유가 궁금합니다.

train 해도 문제 없는건가요?

 

print("\n ===== train/test 카테고리별 수 =====")
print(train.nunique())
print(test.nunique())

개수는 train이 더 많지만 카테고리가 동일하지 않은데.. combined이 맞는건지 고견 부탁드립니다ㅠ

 

답변 0

오타 제보

2

40

2

시큐리티 필터 설정 질문입니다!

2

46

1

스킬에 대해

1

59

2

macOS에서 Windows 실행하는 프로그램

1

23

2