-
카테고리
-
세부 분야
딥러닝 · 머신러닝
-
해결 여부
미해결
연속형데이터가 아닌 범주형데이터일때 치우친데이터에 대한 처리
21.06.04 20:56 작성 조회수 238
0
모델을 만든뒤에 모델정확도를 올리기위해
feature importance를 보고 가장 변수중요도가 높은 변수의 분포를 살펴보고
skew되어있으면 log변환을 하라고 배웠습니다.
근데 이때 해당 분포가 연속형데이터가 아닌 범주형데이터일때는
이 치우친 데이터를 어떻게 처리해야될까요?
답변을 작성해보세요.
0
권 철민
지식공유자2021.06.06
안녕하십니까,
주말에 일이 있어서 답변이 좀 늦었습니다.
카테고리 값은 구분이기 때문에 skew된다는 표현은 잘 사용하지 않으며, 일반적으로 별다른 작업을 하지 않습니다.
구분값이 0(사람), 1(자전거), 2(차)로 되어 있고, 0이 99%, 1과 2가 1%라고 할지언정 연속형 값의 skew와는 차이가 있습니다. 연속형 값의 skew는 큰 숫자값의 종류는 적지만, 정규 분포를 벗어나는 형태의 값 분포를 가지고 있을 경우 알고리즘 특성상 예측 효율일 떨어질 수 있기 때문에 이를 보완하는 기법이 필요할 뿐입니다.
카테고리값은 이러한 skew와는 거리가 있습니다. 굳이 하고자 한다면 one-hot encoding 등의 적용을 고려해 볼 수 있습니다.
답변 1