원핫 인코딩의 다중공선성에 대한 질문입니다.
593
작성한 질문수 7
선생님 안녕하세요.
다름이 아니고 원-핫 인코딩을 통해 데이터를 전처리함에 따라 다중공선성 문제가 발생할 수 있지 않을까 하여 질문드립니다.
자전거 대여 수요 예측 예제에서 예를 들어 봄, 여름, 가을, 겨울 4계절을 칼럼 4개로 원-핫 인코딩하면 ,
모든 데이터는 (봄 칼럼값+ 여름 칼럼값+가을 칼럼값+겨울 칼럼값 = 1)을 만족하므로 다중 공선성 문제가 생갈 수도 있다고 생각합니다.
혹시 이러한 경우에 대해서 다중공선성이 문제가 되지 않는지에 대해서 질문드립니다.
답변해주시면 감사하겠습니다.
답변 1
0
안녕하십니까,
일반적으로 다중 공선성은 피처들간의 상관관계가 매우 높을 때 발생합니다. 가령 판매액, 판매 총액, 판매 달러 환산 금액, 매출액 등 판매액에 따라 비슷한 다른 컬럼들도 매우 밀접하게 따라가는 피처들이 많을때 발생합니다.
그런데 말씀하신대로 원핫 인코딩의 변환이 뜻하지 않게 유사하게 값을 부여하는 특성때문에 다중 공선성 문제점이 발생할 수도 있습니다. 완전히 독립적인 값의 변환을 목표로 하지만 변환특성 때문에 그럴수 있습니다.
원핫 인코딩을 한다고 무조건 적으로 성능이 증가하지 않습니다. 적용 해본뒤 결과를 측정해봐야 합니다.
감사합니다.
안녕하세요 열심히 수강중인 학생입니다
0
60
2
정수 인덱싱
0
68
2
넘파이 오류
0
83
2
11강 numpy의 axis 축 질문 드립니다.
0
85
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
77
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
69
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
75
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
64
2
5강 강의 오류가 있어요.
0
83
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
72
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
69
3
파이썬 다운그레이 후 사이킷런 재설치
0
116
2
좋은 강의 감사합니다.
0
72
2
scoring 함수 음수값
0
67
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
99
2
분류 평가 정확도 예측
0
76
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
98
1
카카오톡 채널 있나요
0
106
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
189
2
pca 스케일링 관련하여 질문드립니다.
0
100
2
주피터 대신 구글 코랩
0
171
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
146
2
실루엣 스코어..
0
84
2
float64 null 값 처리 방법
0
102
2





