인코딩 전 데이터 합치기 질문드립니다!
안녕하세요. 2유형 관련 질문 드립니다!
train 데이터와 test 데이터가 다를때 레이블인코딩 진행시 train의 종류가 test의 종류를 모두 포함했다면 데이터를 합치지 않아도 되고, 원핫인코딩을 할거라면 concat을 통해 데이터를 반드시 합친 후에 다시 분리해야 된다로 이해 했는데 맞을까요?
train의 종류가 test를 모두 포함하지 못한다면 레이블인코딩에서도 데이터를 합친 후 다시 분리해야 할까요?
2유형 EDA을 하면서 아래와 같은 코드로 train과 test 데이터를 무조건 확인하고 진행하는것이 좋은 방법인지 궁금합니다.
print(train.describe(include='O'))
print(test.describe(include='O'))
a = set(train['object컬럼'].unique())
b = set(test['object컬럼'].unique())
print(a - b)
print(b – a)
모르는게 많아 질문이 길어졌습니다. 답변 감사합니다!
답변 1
0
네 정확합니다 🙂
네 맞습니다.
네 이렇게 확인하는 것이 좋아요!!
아직 합쳐야 하는 상황이나
카테고리가 다른 상황이 시험에서 나온적은 없어요
(단, 주최측에서 보여주고 있는 예시 문제에서는 출제됨)
어떤 데이터가 나올지 모르는 상황에서 카테고리 비교는 확인하고 넘어가는 것이 깔끔합니다.
수강연장 문의
0
20
1
재검토 요청 방법 좀 알려주셔요...-.-;;
-1
45
2
12회 실기 질문(작업형 2)
0
41
2
뒤로가기 버튼 같은 것이 있나요?
0
42
1
강의 연장 문의
0
52
2
출력값 질문
0
38
2
수업노트가 어디에 있나요?
0
36
1
실기시험 제출관련
0
182
3
6.20 작업형 2 과적합
0
184
3
코딩팡 장업형2 베이스 라인 인코딩 종류 질문
0
58
2
로지스틱회귀, 회귀
0
54
2
회귀 문제를 풀때 질문입니다.
0
63
1
불균형 처리 후 성능이 더 낮아졌다면,
0
68
2
실기 체험 제2유형 에러 문의
0
70
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
56
2
3번문제 등분산 가정
0
53
2
작업형3 target 형 변환 질문
0
40
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
42
3
원핫인코딩과 레이블 인코딩에서 concat
0
65
2
제2유형 질문입니다.
0
51
2
C()
0
47
2
작업형 2에서 strafity 적용 유무
0
59
2
수강 기간 연장 가능 여부 문의드립니다.
0
74
2
ols
0
46
2





