작성
·
59
·
수정됨
0
안녕하세요!
24. 머신러닝 학습 및 평가 (분류)
25. 머신러닝 학습 및 평가 (회귀)
강의를 듣고 궁금한게 생겨서 질문을 남기고 있습니다!
0) 궁금증의 개요
: Train 데이터와 Test 데이터의 컬럼수가 차이가 날 때,
원핫 인코딩으로 풀기위해서는 합치기(concat) 와 분리를 사용하는 것으로 인지하고 있습니다.
1) 분류 문제의 경우
① Train 데이터와 Test 데이터의 컬럼수가 차이가 남
-> 원핫 인코딩을 쓰려면 합치기 (concat) 사용 + 원핫 인코딩 사용 + 분리
-> 레이블 인코딩으로 합치기 (concat) 미사용하고, 풀이 진행함
2) 회귀 문제의 경우
① Train 데이터와 Test 데이터의 컬럼수가 차이가 안남
② 합치기(concat) -> 레이블 인코딩 -> 분리를 진행하고 풀이 진행함
3) 궁금한 점
① 분류 문제에서 트레인 데이터와 테스트 데이터의 컬럼의 수가 다를 때,
원핫 인코딩으로 풀이 진행하려면 .concat 사용 -> 원핫 인코딩 -> 분리해야하는데
이 과정이 하기 싫으면 레이블 인코딩 사용하면 되나요???
② Train 데이터와 Test 데이터의 컬럼수가 차이가 날때만,
원핫 인코딩에서 합치기와 분리를 진행하는거 아닌가요???
③ 회귀 문제에서는 Train 데이터와 Test 데이터의 컬럼수가 차이가 안나는데,
왜 레이블 인코딩으로 합치기와 분리를 하신건가요???
④ 회귀 문제에서 레이블 인코딩을 할 때, 왜 Test 데이터에는 트랜스폼을 진행안하신 이유가 있을까요?
분류 문제에서는 트랜스폼을 진행하셨는거 같은데 ㅠㅠ
⑤ 원핫 인코딩, 레이블 인코딩에서 합치기와 분리 순서가 맞는지 확인 부탁드려도 될까요?
- 순서 : 합치기 -> 원핫,레이블 인코딩 -> 분리
※ 제가 파이썬이 처음이라 궁금한점이 너무 많은거 같습니다 ㅜㅜ
번거롭게 해드려 죄송합니다ㅜㅜ
답변 2
1
교수님 늦은 시간에도 친절한 답변 감사합니다 !!! 궁금한 점이 해소되었습니다!!!
제가 크게 한가지를 착각해서 개념이 꼬였던 것 같습니다!
1) 분류와 회귀문제에서 전처리 과정이 다르다.
-> 회귀문제에서 설명해주신 것 처럼 분류 문제를 혼자 해보니, 전처리의 과정은 동일한것을 확인했습니다!
감사합니다!
1
하나씩 답변해 볼게요
분류와 회귀 차이는 없습니다.
분류와 회귀 차이는 모델의 차이, 평가 지표의 차이 밖에 없어요
전처리는 동일합니다 🙂
기본적으로 train과 test 카테고리 차이가 있다면
합쳐서 원핫 또는 레이블 인코딩 하고 난 뒤 분리하는 것이 맞아요
단, train에 포도, 딸기, 배
test 에 포도, 배
가 있는 것처럼 train이 test를 포함하고 있다면 합치는 것 없이 레이블 인코딩은 가능합니다(합치지 않고서는 원핫인코딩은 컬럼 수가 달라져 불가)
회귀에서 트랜스폼을 안한 것은 이미 train과 test를 합쳐서 인코딩을 한 상태입니다:)
순서 : 합치기 -> 원핫,레이블 인코딩 -> 분리 가 맞습니다.
제가 조금 어려운 데이터로 분류와 회귀를 설명했어요. 추후 아래쪽 팁에 있는 작업형2 한가지로 풀기로 지금까지 작업형2는 다 풀렸습니다.
응원합니다 💪💪💪💪💪
화이팅 👏👏👏