원핫, 레이블 인코딩에서 합치기와 분리를 사용하는 시점이 언제일까요???
103
작성한 질문수 3
안녕하세요!
24. 머신러닝 학습 및 평가 (분류)
25. 머신러닝 학습 및 평가 (회귀)
강의를 듣고 궁금한게 생겨서 질문을 남기고 있습니다!
0) 궁금증의 개요
: Train 데이터와 Test 데이터의 컬럼수가 차이가 날 때,
원핫 인코딩으로 풀기위해서는 합치기(concat) 와 분리를 사용하는 것으로 인지하고 있습니다.
1) 분류 문제의 경우
① Train 데이터와 Test 데이터의 컬럼수가 차이가 남
-> 원핫 인코딩을 쓰려면 합치기 (concat) 사용 + 원핫 인코딩 사용 + 분리
-> 레이블 인코딩으로 합치기 (concat) 미사용하고, 풀이 진행함
2) 회귀 문제의 경우
① Train 데이터와 Test 데이터의 컬럼수가 차이가 안남
② 합치기(concat) -> 레이블 인코딩 -> 분리를 진행하고 풀이 진행함
3) 궁금한 점
① 분류 문제에서 트레인 데이터와 테스트 데이터의 컬럼의 수가 다를 때,
원핫 인코딩으로 풀이 진행하려면 .concat 사용 -> 원핫 인코딩 -> 분리해야하는데
이 과정이 하기 싫으면 레이블 인코딩 사용하면 되나요???
② Train 데이터와 Test 데이터의 컬럼수가 차이가 날때만,
원핫 인코딩에서 합치기와 분리를 진행하는거 아닌가요???
③ 회귀 문제에서는 Train 데이터와 Test 데이터의 컬럼수가 차이가 안나는데,
왜 레이블 인코딩으로 합치기와 분리를 하신건가요???
④ 회귀 문제에서 레이블 인코딩을 할 때, 왜 Test 데이터에는 트랜스폼을 진행안하신 이유가 있을까요?
분류 문제에서는 트랜스폼을 진행하셨는거 같은데 ㅠㅠ
⑤ 원핫 인코딩, 레이블 인코딩에서 합치기와 분리 순서가 맞는지 확인 부탁드려도 될까요?
- 순서 : 합치기 -> 원핫,레이블 인코딩 -> 분리
※ 제가 파이썬이 처음이라 궁금한점이 너무 많은거 같습니다 ㅜㅜ
번거롭게 해드려 죄송합니다ㅜㅜ
답변 2
1
교수님 늦은 시간에도 친절한 답변 감사합니다 !!! 궁금한 점이 해소되었습니다!!!
제가 크게 한가지를 착각해서 개념이 꼬였던 것 같습니다!
1) 분류와 회귀문제에서 전처리 과정이 다르다.
-> 회귀문제에서 설명해주신 것 처럼 분류 문제를 혼자 해보니, 전처리의 과정은 동일한것을 확인했습니다!
감사합니다!
1
하나씩 답변해 볼게요
분류와 회귀 차이는 없습니다.
분류와 회귀 차이는 모델의 차이, 평가 지표의 차이 밖에 없어요
전처리는 동일합니다 🙂
기본적으로 train과 test 카테고리 차이가 있다면
합쳐서 원핫 또는 레이블 인코딩 하고 난 뒤 분리하는 것이 맞아요단, train에 포도, 딸기, 배
test 에 포도, 배
가 있는 것처럼 train이 test를 포함하고 있다면 합치는 것 없이 레이블 인코딩은 가능합니다(합치지 않고서는 원핫인코딩은 컬럼 수가 달라져 불가)
회귀에서 트랜스폼을 안한 것은 이미 train과 test를 합쳐서 인코딩을 한 상태입니다:)
순서 : 합치기 -> 원핫,레이블 인코딩 -> 분리 가 맞습니다.
제가 조금 어려운 데이터로 분류와 회귀를 설명했어요. 추후 아래쪽 팁에 있는 작업형2 한가지로 풀기로 지금까지 작업형2는 다 풀렸습니다.
응원합니다 💪💪💪💪💪
수업노트가 어디에 있나요?
0
17
1
실기시험 제출관련
0
150
2
6.20 작업형 2 과적합
0
157
3
코딩팡 장업형2 베이스 라인 인코딩 종류 질문
0
48
2
로지스틱회귀, 회귀
0
47
2
회귀 문제를 풀때 질문입니다.
0
54
1
불균형 처리 후 성능이 더 낮아졌다면,
0
61
2
실기 체험 제2유형 에러 문의
0
61
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
49
2
3번문제 등분산 가정
0
47
2
작업형3 target 형 변환 질문
0
34
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
36
3
원핫인코딩과 레이블 인코딩에서 concat
0
58
2
제2유형 질문입니다.
0
46
2
C()
0
44
2
작업형 2에서 strafity 적용 유무
0
51
2
수강 기간 연장 가능 여부 문의드립니다.
0
60
1
ols
0
43
2
2유형 작성관련 질문(일반 심화)
0
39
2
2유형 작성관련 질문
0
41
2
2유형 object컬럼 개수 다르면
0
48
2
코딩팡질문이요ㅠㅠ
0
45
2
관찰값과 기대값의 개념이 헷갈립니다.
0
25
2
작업형2 ID 컬럼 삭제 질문
0
45
2





