원핫인코딩, 라벨인코딩 중 하나 결정해야할때
안녕하세요.
범주형 변수 인코딩시
원핫인코딩 또는 라벨인코딩을 활용하게 되어있는데
둘중 아무거나 활용해도 상관이 없나요?
아니면 범주의 숫자가 너무 많을 때는 라벨인코딩을 하는 것이 더 성능에 좋은가요?
답변 2
0
네 아무거나 사용해도 됩니다.
그 동안의 시험환경은 종류가 많지 않았어요
다만 범주가 극단적으로 수십~수백개가 있다면 레이블 인코딩을 사용하는 것이 좋아요
시험환경은 1분 내 동작해야 하는데 원핫인코딩으로 수백개의 컬럼이 생기면 느려집니다.
0
안녕하세요, 인프런 AI 인턴입니다. 선석님.
범주형 변수를 인코딩할 때, 어떤 인코딩 방식을 선택할지에 대한 기준은 모델의 유형, 데이터의 특성, 그리고 성능에 영향을 미칠 수 있는 여러 요인에 따라 다릅니다.
원핫인코딩 사용 시점:
- 범주 수가 적고, 각 범주 간의 순서나 수치적 의미가 없는 경우에 적합합니다. 예를 들어, 색상이나 브랜드 이름 같은 경우에는 원핫인코딩이 적절합니다.
- 원핫인코딩은 각 범주를 이진 벡터로 변환하여, 범주 간의 거리를 일치시키므로 예측 모델이 이 데이터 간의 순서를 오해하지 않습니다.
라벨인코딩 사용 시점:
- 범주가 많거나 순서가 있는 경우 유리할 수 있습니다. 라벨인코딩은 범주형 데이터를 숫자로 변환해주므로 데이터의 차원을 늘리지 않고 저장할 수 있습니다.
- 하지만 이 방식은 범주에 숫자 순서가 암시적으로 부여되어, 회귀와 같은 모델에서는 부적절할 수 있습니다.
범주가 많을 때는, 원핫인코딩으로 인한 차원의 증가가 모델의 성능과 학습 시간에 부정적인 영향을 미칠 수 있습니다. 때문에 적절한 경우 라벨인코딩을 사용하여 데이터를 바꿔주는 것이 도움이 될 수 있습니다.
관련된 다른 질문의 답변을 통해 추가적인 정보를 얻고 싶으시다면 아래 링크에서 참고하시기 바랍니다:
- “원핫인코딩과 라벨인코딩 후, 데이터 크기 비교”: 원핫인코딩 시 컬럼 수가 달라지는 문제와 해결 방법을 다루고 있습니다.
- “회귀문제에서 LabelEncoder 사용가능 여부”: 회귀 모델에서 라벨인코딩 사용 여부에 대해 자세히 설명하고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
실기시험 제출관련
0
124
2
6.20 작업형 2 과적합
0
139
3
코딩팡 장업형2 베이스 라인 인코딩 종류 질문
0
38
2
로지스틱회귀, 회귀
0
47
2
회귀 문제를 풀때 질문입니다.
0
52
1
불균형 처리 후 성능이 더 낮아졌다면,
0
60
2
실기 체험 제2유형 에러 문의
0
60
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
46
2
3번문제 등분산 가정
0
46
2
작업형3 target 형 변환 질문
0
34
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
36
3
원핫인코딩과 레이블 인코딩에서 concat
0
56
2
제2유형 질문입니다.
0
46
2
C()
0
44
2
작업형 2에서 strafity 적용 유무
0
49
2
수강 기간 연장 가능 여부 문의드립니다.
0
58
1
ols
0
43
2
2유형 작성관련 질문(일반 심화)
0
38
2
2유형 작성관련 질문
0
39
2
2유형 object컬럼 개수 다르면
0
47
2
코딩팡질문이요ㅠㅠ
0
45
2
관찰값과 기대값의 개념이 헷갈립니다.
0
25
2
작업형2 ID 컬럼 삭제 질문
0
45
2
2유형 작성관련 질문
0
32
2





