실제 데이터 One hot encoding
438
작성한 질문수 3
먼저 항상 수업 잘 듣고 있고 감사하다고 말씀드리고 싶습니다!
선생님의 수업을 듣고, 혼자서 해당 데이터를 가지고 kaggle에 직접 제출까지 해보고 싶어 데이터 전처리하는 도중 문제가 발생해 질문 드립니다.
강의에서는 train.csv만을 가지고 전처리를 해서 문제가 없었지만,
실제로 제출을 위해선 test.csv도 train.csv 파일과 같이 전처리를 해야한다고 알고 있습니다.
one hot encoding 하기 전 train.csv, test.csv의 피처 수는 각각 76, 75로 target 값을 제외하면 같은 수인데, get_dimmies함수를 적용하면 피처 수가 각각 272, 255로 다른 값으로 됩니다.
train데이터로 훈련하고 예측을 하려면 test데이터의 피처의 수가 train데이터와 같아야한다고 알고 있는데, 이런 문제는 어떻게 해결해야할까요 그리고 왜 이런 문제가 발생하는 건가요?, 제 추측으로는 각 피처들의 결측 값의 유무로 인해 nan값이 있는 피처들이 컬럼이 하나 더 생겨 차이가 발생하는 것 같은데, 그렇다고 해도 어떻게 해결해야할지 감이 오지 않습니다..답변 기다리겠습니다!!
답변 3
0
선생님께서 수업에서 알려주신 거 처럼 실수 결측 값 채운 후pd.get_dummies(train) 하고 test 데이터도 똑같이 채우고 dummies(test) 했습니다!!
0
아님. 스스로 해당 object 컬럼들을 모두 value_counts()를 사용해서 학습과 테스트 데이터 모두 값을 비교 해 보십시요.
이게 번거로우시면,
one-hot encoding을 꼭 해봐야 하시겠다면 모르겠지만, 그렇지 않다면 label encoding 적용을 추천드립니다.
0
안녕하십니까,
잘 듣고 계시다니 저도 기쁘군요 ^^
제 생각엔 학습 데이터 피처에는 있는 값이 테스트 데이터 피처에는 없는것 같습니다. 가령 학습데이터에는 1, 2,3 으로 되어 있는데, 테스트 데이터에는 1, 2 만 있는 것 같습니다.
어떤 컬럼들을 get_dummies()를 하셨는지 코드를 볼 수 있을까요? 제가 함 확인해 보겠습니다.
모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.
0
46
2
안녕하세요 열심히 수강중인 학생입니다
0
81
2
정수 인덱싱
0
82
2
넘파이 오류
0
105
2
11강 numpy의 axis 축 질문 드립니다.
0
103
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
88
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
75
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
80
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
70
2
5강 강의 오류가 있어요.
0
88
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
77
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
72
3
파이썬 다운그레이 후 사이킷런 재설치
0
124
2
좋은 강의 감사합니다.
0
78
2
scoring 함수 음수값
0
71
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
108
2
분류 평가 정확도 예측
0
85
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
111
1
카카오톡 채널 있나요
0
113
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
191
2
pca 스케일링 관련하여 질문드립니다.
0
108
2
주피터 대신 구글 코랩
0
180
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
151
2
실루엣 스코어..
0
91
2





