인코딩 전 데이터 합치기 질문드립니다!
1
작성한 질문수 5
안녕하세요. 2유형 관련 질문 드립니다!
train 데이터와 test 데이터가 다를때 레이블인코딩 진행시 train의 종류가 test의 종류를 모두 포함했다면 데이터를 합치지 않아도 되고, 원핫인코딩을 할거라면 concat을 통해 데이터를 반드시 합친 후에 다시 분리해야 된다로 이해 했는데 맞을까요?
train의 종류가 test를 모두 포함하지 못한다면 레이블인코딩에서도 데이터를 합친 후 다시 분리해야 할까요?
2유형 EDA을 하면서 아래와 같은 코드로 train과 test 데이터를 무조건 확인하고 진행하는것이 좋은 방법인지 궁금합니다.
print(train.describe(include='O'))
print(test.describe(include='O'))
a = set(train['object컬럼'].unique())
b = set(test['object컬럼'].unique())
print(a - b)
print(b – a)
모르는게 많아 질문이 길어졌습니다. 답변 감사합니다!
답변 0
섹션5. 회귀 강의 관련 질문드립니다
0
16
2
수강기간연장 문의드립니다
0
20
1
수강 연장 문의
0
23
1
label 인코딩 에러 발생 원인
0
24
2
LabelEncoding 시 train data 학습(fit_transform, transform)
0
26
2
로지스틱 회귀분석은 옛날거 밖에 없나요?
0
30
2
판다스 표 표시
0
24
3
1유형 강의 다 나간 후 어떻게 할까요?
0
36
2
점수차가 많이 나는데 따로 하신게 있으신가요?
0
33
2
작업형1 모의문제 4번에 3)문제 질문
0
36
2
이상치 전처리 작업
0
43
2
평가결과값 문의
0
35
2
시계열 데이터 날짜와 시간 format
0
44
2
평가지표 F1 스코어 질문드립니다.
0
32
2
작업형 2 기출7회분에서
0
42
2
작업형2 모의문제1 (30강)
0
35
2
수강 기간 연장 문의 드립니다.
0
51
2
수강 계획과 관련해 문의 드립니다.
0
35
2
작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?
0
53
2
작업형 1 -연습문제 4-6
0
40
2
작업형 1 유형 부분
0
45
2
작업형 1 (삭제예정, 구 버전)
0
53
2
수강기간 연장 문의드립니다.
0
47
2
2유형 레이블 인코딩 VS 원핫 인코딩
0
40
3





