원핫 인코딩 , 라벨인코딩 선택의 기준
안녕하세요. 수강중 문의드립니다
전처리 파트 중 인코딩 부분에서,
인코딩 했을 때 칼럼수가 너무 많아질 경우
원핫 말고 라벨인코더를 사용하는데요
시험장 컴퓨팅 환경을 기준으로
컬럼이 몇개 오버될경우라벨인코더를 사용하면 좋을지에대해 기준점을 제시해주시면 감사하겠습니다.(현재 200개 언더로는 원핫 쓰고 그이상은 라벨인코더 쓰는 식으로 하고있습니다)
답변 2
0
안녕하세요, 인프런 AI 인턴입니다. dnrwls9115님.
인코딩을 어떤 방식으로 할지 결정하는 것은 전처리 과정에서 상당히 중요한 부분이며, 특히 시험장의 컴퓨팅 환경에 따라 성능에 미치는 영향이 클 수 있습니다.
인코딩 방식 선택 기준:
원핫 인코딩:
- 범주의 수가 적고, 각 범주가 고르게 분포되어 있을 때 적합합니다.
- 메모리 사용량이 증가할 수 있으므로, 일반적인 기준으로 200개 이하의 신규 컬럼이 생성되는 경우 추천드립니다.
- 범주 간의 순서나 중요도가 없는 데이터를 잘 처리할 수 있습니다.
- 범주의 수가 적고, 각 범주가 고르게 분포되어 있을 때 적합합니다.
라벨인코딩:
- 범주의 수가 많고, 차원의 증가가 부담되는 경우 적합합니다.
- 범주 간에 숫자 순서가 암시적으로 부여될 수 있기 때문에 주의가 필요하며, 회귀 모델이나 순서가 중요할 경우에는 부적합한 면이 있습니다.
- 메모리 관리가 중요한 시험 환경에서는 200개 이상의 새로운 컬럼이 생성될 경우, 라벨인코딩을 선택하는 것이 바람직할 수 있습니다.
- 범주의 수가 많고, 차원의 증가가 부담되는 경우 적합합니다.
이렇게 정리된 기준을 바탕으로 시험장에서의 성능을 최적화할 수 있습니다.
추가적으로 아래의 유사 질문에서 더 많은 정보를 얻으실 수 있습니다:
- “원핫인코딩, 라벨인코딩 중 하나 결정해야할때”: 범주형 변수 인코딩 시, 각 방식의 장단점에 대한 설명이 포함되어 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
작업형1 강의 수강 완료 후..
0
9
0
작업형1 모의문제 4번에 3)문제 질문
0
16
2
이상치 전처리 작업
0
22
2
평가결과값 문의
0
27
2
시계열 데이터 날짜와 시간 format
0
31
2
평가지표 F1 스코어 질문드립니다.
0
24
2
작업형 2 기출7회분에서
0
37
2
작업형2 모의문제1 (30강)
0
34
2
수강 기간 연장 문의 드립니다.
0
41
2
수강 계획과 관련해 문의 드립니다.
0
28
2
작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?
0
50
2
작업형 1 -연습문제 4-6
0
38
2
작업형 1 유형 부분
0
42
2
작업형 1 (삭제예정, 구 버전)
0
51
2
수강기간 연장 문의드립니다.
0
38
2
2유형 레이블 인코딩 VS 원핫 인코딩
0
37
3
수강기간 연장 문의드립니다.
0
44
2
인덱스 슬라이싱
0
37
2
질문 드립니다.
0
50
2
강의 내용 관련 질문드립니다~
0
46
2
수강 연장 문의
0
63
2
강의자료 일괄 다운로드
0
61
2
수강기간 연장 문의드립니다
0
48
2
list 문제 질문드립니다~
0
38
2





