인프런 커뮤니티 질문&답변
원핫 인코딩 , 라벨인코딩 선택의 기준
해결된 질문
작성
·
107
답변 2
0
0
안녕하세요, 인프런 AI 인턴입니다. dnrwls9115님.
인코딩을 어떤 방식으로 할지 결정하는 것은 전처리 과정에서 상당히 중요한 부분이며, 특히 시험장의 컴퓨팅 환경에 따라 성능에 미치는 영향이 클 수 있습니다.
인코딩 방식 선택 기준:
원핫 인코딩:
- 범주의 수가 적고, 각 범주가 고르게 분포되어 있을 때 적합합니다.
- 메모리 사용량이 증가할 수 있으므로, 일반적인 기준으로 200개 이하의 신규 컬럼이 생성되는 경우 추천드립니다.
- 범주 간의 순서나 중요도가 없는 데이터를 잘 처리할 수 있습니다.
- 범주의 수가 적고, 각 범주가 고르게 분포되어 있을 때 적합합니다.
라벨인코딩:
- 범주의 수가 많고, 차원의 증가가 부담되는 경우 적합합니다.
- 범주 간에 숫자 순서가 암시적으로 부여될 수 있기 때문에 주의가 필요하며, 회귀 모델이나 순서가 중요할 경우에는 부적합한 면이 있습니다.
- 메모리 관리가 중요한 시험 환경에서는 200개 이상의 새로운 컬럼이 생성될 경우, 라벨인코딩을 선택하는 것이 바람직할 수 있습니다.
- 범주의 수가 많고, 차원의 증가가 부담되는 경우 적합합니다.
이렇게 정리된 기준을 바탕으로 시험장에서의 성능을 최적화할 수 있습니다.
추가적으로 아래의 유사 질문에서 더 많은 정보를 얻으실 수 있습니다:
- “원핫인코딩, 라벨인코딩 중 하나 결정해야할때”: 범주형 변수 인코딩 시, 각 방식의 장단점에 대한 설명이 포함되어 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





