이산적인(discrete) 데이터에 관한 질문
304
작성한 질문수 25
안녕하세요. 혼자 선형회귀를 돌려보려다가 제 데이터셋에 이산적인 데이터가 너무 많은 걸 깨달았습니다.
한 피쳐에 값이 4개 정도의 숫자로 이루어져 있는데, 이러한 피쳐가 굉장히 많이 있네요.
처음엔 그냥 continuous 데이터와 마찬가지로 표준화를 하고 학습을 시켰습니다. 그러고 생각을 해보니 원핫인코딩을 해야할 거 같기도 하고.. 원핫 인코딩을 한다면 10개정도의 numerical 데이터가 있는 피쳐도 똑같이 원핫 인코딩을 해야하는건지...
이 데이터를 어떻게 처리하는게 좋을까요?
이렇게 이산적인 데이터 피쳐가 많다면 선형회귀가 힘들까요?? 원래는 continuous해야하는 데이터지만 데이터 수집에 한계를 느껴서 같은 값을 입력한 row가 많습니다
답변 1
0
안녕하십니까,
선형 회귀에 이산 데이터를 반드시 원핫 인코딩 하실 필요 없습니다. 다만 영향이 있을 수 있기에 원핫 인코딩을 권장 드리는 것입니다. 먼저 레이블 인코딩 한 후 학습/예측 수행해 보시고, 다음번에는 이산 데이터 만 골라서 pd.get_dummies()를 적용해 원-핫 인코딩 해보십시요. 그런 다음 좋은 걸 선택하면 됩니다.
그리고 numerical 데이터를 별도 인코딩 해줄 필요는 없습니다. 단 이 numerical 데이터가 이산값과 비슷한 코드성 값이라면 아예 아무 처리를 해주지 않거나(이미 레이블 인코딩 되어 있는 것과 동일하기 때문에) 아니면 위에서와 같이 실험적으로 원-핫 인코딩 해주십시요.
원-핫 인코딩의 문제는 피처갯수가 너무 많이 늘어날 수 있다는 것인데, 이 또한 테스트 해서 결과가 좋으면 수용할 수 있습니다.
크게 고민하지 마시고 먼저 어떤것이든 구현해 보시고 비교/선택해보시는게 좋을것 같습니다.
감사합니다.
안녕하세요 열심히 수강중인 학생입니다
0
61
2
정수 인덱싱
0
68
2
넘파이 오류
0
85
2
11강 numpy의 axis 축 질문 드립니다.
0
85
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
79
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
70
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
75
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
64
2
5강 강의 오류가 있어요.
0
84
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
72
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
69
3
파이썬 다운그레이 후 사이킷런 재설치
0
117
2
좋은 강의 감사합니다.
0
72
2
scoring 함수 음수값
0
67
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
100
2
분류 평가 정확도 예측
0
76
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
98
1
카카오톡 채널 있나요
0
107
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
189
2
pca 스케일링 관련하여 질문드립니다.
0
100
2
주피터 대신 구글 코랩
0
172
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
147
2
실루엣 스코어..
0
85
2
float64 null 값 처리 방법
0
102
2





