• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

원핫 인코딩의 다중공선성에 대한 질문입니다.

21.01.08 18:50 작성 조회수 381

2

선생님 안녕하세요. 

다름이 아니고 원-핫 인코딩을 통해 데이터를 전처리함에 따라 다중공선성 문제가 발생할 수 있지 않을까 하여 질문드립니다.

자전거 대여 수요 예측 예제에서 예를 들어 봄, 여름, 가을, 겨울 4계절을 칼럼 4개로 원-핫 인코딩하면 ,

모든 데이터는 (봄 칼럼값+ 여름 칼럼값+가을 칼럼값+겨울 칼럼값 = 1)을 만족하므로 다중 공선성 문제가 생갈 수도 있다고 생각합니다.

혹시 이러한 경우에 대해서 다중공선성이 문제가 되지 않는지에 대해서 질문드립니다.

답변해주시면 감사하겠습니다. 

답변 1

답변을 작성해보세요.

0

안녕하십니까,

일반적으로 다중 공선성은 피처들간의 상관관계가 매우 높을 때 발생합니다. 가령 판매액, 판매 총액, 판매 달러 환산 금액, 매출액 등 판매액에 따라 비슷한 다른 컬럼들도 매우 밀접하게 따라가는 피처들이 많을때 발생합니다.

그런데 말씀하신대로 원핫 인코딩의 변환이 뜻하지 않게  유사하게 값을 부여하는 특성때문에 다중 공선성 문제점이 발생할 수도 있습니다. 완전히 독립적인 값의 변환을 목표로 하지만 변환특성 때문에 그럴수 있습니다. 

원핫 인코딩을 한다고 무조건 적으로 성능이 증가하지 않습니다. 적용 해본뒤 결과를 측정해봐야 합니다.

감사합니다.