• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    해결됨

원-핫 엔코딩 vs. 인터벌

22.02.03 13:43 작성 조회수 74

1

강사님 안녕하세요,

 

  1. 16:50에서 선형회귀의 경우 코드값들에 대해서 원-핫 엔코딩을 하는 게 중요하다고 하셨는데, Hour 같은 경우 원-핫 엔코딩 대신 도메인 지식을 활용해서 출퇴근시간(7-10am & 4pm-7pm), 낮시간, 밤시간과 같이 interval로 된 변수를 만들어도 괜찮나요?
  2. 이 또한 원-핫 엔코딩만 가진 model 따로, interval 변수로 된 model 따로, 혹은 원-핫 엔코딩과 interval 변수를 둘 다 가진 model을 세 개 다 만들어서 보고 그 중 가장 성능이 좋은 model을 택하면 되는 것인가요?
  3. 마지막처럼 하면 피쳐가 늘어남으로써 over-fitting되는 curse of dimensionality가 우려되고 interval 변수와 OHE변수들과의 multi-collinearity 문제가 우려되는데 이는 어떻게 해결하나요? 이 또한 퍼포먼스만 좋으면 괜찮은걸까요?

답변 감사합니다 )_ㅇ_(

답변 1

답변을 작성해보세요.

0

아래 질문에 요약해서 먼저 답변을 드리면, 

피처가 늘어나면 차원 저주의 문제가 있지만, 피처 엔지니어링 차원에서 더 좋을 수가 있습니다. 일단 피처들을 다양하게 가공하고  여러 모델을 적용해서 그 중 성능 좋은 모델을 택하면 됩니다. 

1. 16:50에서 선형회귀의 경우 코드값들에 대해서 원-핫 엔코딩을 하는 게 중요하다고 하셨는데, Hour 같은 경우 원-핫 엔코딩 대신 도메인 지식을 활용해서 출퇴근시간(7-10am & 4pm-7pm), 낮시간, 밤시간과 같이 interval로 된 변수를 만들어도 괜찮나요?

=> 네 괜찮습니다. 

이 또한 원-핫 엔코딩만 가진 model 따로, interval 변수로 된 model 따로, 혹은 원-핫 엔코딩과 interval 변수를 둘 다 가진 model을 세 개 다 만들어서 보고 그 중 가장 성능이 좋은 model을 택하면 되는 것인가요?

=> 네 맞습니다. 

마지막처럼 하면 피쳐가 늘어남으로써 over-fitting되는 curse of dimensionality가 우려되고 interval 변수와 OHE변수들과의 multi-collinearity 문제가 우려되는데 이는 어떻게 해결하나요? 이 또한 퍼포먼스만 좋으면 괜찮은걸까요?

=> 네, 앞에 말씀 드린대로 적용해보고 결정하면 됩니다.