-
카테고리
-
세부 분야
딥러닝 · 머신러닝
-
해결 여부
해결됨
원-핫 엔코딩 vs. 인터벌
22.02.03 13:43 작성 조회수 84
1
강사님 안녕하세요,
- 16:50에서 선형회귀의 경우 코드값들에 대해서 원-핫 엔코딩을 하는 게 중요하다고 하셨는데, Hour 같은 경우 원-핫 엔코딩 대신 도메인 지식을 활용해서 출퇴근시간(7-10am & 4pm-7pm), 낮시간, 밤시간과 같이 interval로 된 변수를 만들어도 괜찮나요?
- 이 또한 원-핫 엔코딩만 가진 model 따로, interval 변수로 된 model 따로, 혹은 원-핫 엔코딩과 interval 변수를 둘 다 가진 model을 세 개 다 만들어서 보고 그 중 가장 성능이 좋은 model을 택하면 되는 것인가요?
- 마지막처럼 하면 피쳐가 늘어남으로써 over-fitting되는 curse of dimensionality가 우려되고 interval 변수와 OHE변수들과의 multi-collinearity 문제가 우려되는데 이는 어떻게 해결하나요? 이 또한 퍼포먼스만 좋으면 괜찮은걸까요?
답변 감사합니다 )_ㅇ_(
답변을 작성해보세요.
0
권 철민
지식공유자2022.02.03
아래 질문에 요약해서 먼저 답변을 드리면,
피처가 늘어나면 차원 저주의 문제가 있지만, 피처 엔지니어링 차원에서 더 좋을 수가 있습니다. 일단 피처들을 다양하게 가공하고 여러 모델을 적용해서 그 중 성능 좋은 모델을 택하면 됩니다.
1. 16:50에서 선형회귀의 경우 코드값들에 대해서 원-핫 엔코딩을 하는 게 중요하다고 하셨는데, Hour 같은 경우 원-핫 엔코딩 대신 도메인 지식을 활용해서 출퇴근시간(7-10am & 4pm-7pm), 낮시간, 밤시간과 같이 interval로 된 변수를 만들어도 괜찮나요?
=> 네 괜찮습니다.
이 또한 원-핫 엔코딩만 가진 model 따로, interval 변수로 된 model 따로, 혹은 원-핫 엔코딩과 interval 변수를 둘 다 가진 model을 세 개 다 만들어서 보고 그 중 가장 성능이 좋은 model을 택하면 되는 것인가요?
=> 네 맞습니다.
마지막처럼 하면 피쳐가 늘어남으로써 over-fitting되는 curse of dimensionality가 우려되고 interval 변수와 OHE변수들과의 multi-collinearity 문제가 우려되는데 이는 어떻게 해결하나요? 이 또한 퍼포먼스만 좋으면 괜찮은걸까요?
=> 네, 앞에 말씀 드린대로 적용해보고 결정하면 됩니다.
답변 1