인프런 커뮤니티 질문&답변
로지스틱 회귀분석과 레이블인코딩 질문드립니다!
작성
·
1.1K
0
안녕하세요! 우선 질 좋은 강의에 감사인사 드립니다!
강의 중에 강사님께서 회귀분석 문제를 해결하려 할 때 주어진 데이터셋 feature에 범주형 변수가 들어 있으면 레이블 인코딩 보다는 원-핫 인코딩을 해주라고 말씀하셨잖아요!?(레이블 인코딩을 하게 되면 레이블 값들 간의 서열관계가 연속적인 값을 예측하는 회귀분석의 y값에 영향을 미치기 때문이겠죠!?)
그런데 만약에 해결하려는 문제가 이진분류 문제인데, 주어진 데이터셋에 범주가 여러개인 범주형 변수가 존재합니다. 이럴 때 레이블 인코딩을 해주려고 하는데, 레이블 인코딩을 한 후에 모델링을 할 시 '로지스틱 회귀' 모델을 사용하면 파라미터를 계산하는 과정에서 '단순회귀' 때 처럼 인코딩된 레이블값들 간의 서열관계가 영향을 미쳐 예측을 하지 못할 것 같다고 생각하는데요.. 이런 사고과정이 맞는지 여쭈어 봅니다...!
만약 제 말이 맞다면 범주형 변수를 레이블 인코딩하는 절차를 거쳤다면 모델을 선택할 때 회귀식이 가정된 모형들은 피해야 하는게 맞는 건가요!?
질문 들어주셔서 감사합니다!
답변 2
0
0
안녕하십니까,
네 맞습니다. 말씀하신 특성으로 인해 이론적으로는 선형 계열 머신러닝 알고리즘(선형회귀, 로지스틱 회귀)는 레이블 인코딩 보다는 원-핫 인코딩이 보다 바람직합니다.
그런데 실제 테스트를 해보면 이게 명확하지 않습니다. 강의에서는 원-핫 인코딩의 필요성을 강조하기 위해서 어느정도 원-핫 인코딩의 능력치가 과장된 부분도 있습니다. 하지만 원-핫 인코딩을 하면 피처수가 크게 늘어날 수 있고, 반드시 레이블 인코딩이 불리하지 않고 더 나은 성능을 나타낼 때도 있습니다.
전형적으로 머신러닝을 배울때 선형 회귀, 로지스틱 회귀는 원-핫 인코딩을 적용하라고 알려졌지만, 반드시 원-핫 인코딩이 유리한것은 아닙니다. 상황별로 레이블 인코딩/원-핫 인코딩을 적용하고 더 나은 결과를 선택하는 경험적 방법을 적용하는 것이 좋을 것 같습니다.
감사합니다.





