강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

dnrwls9115님의 프로필 이미지
dnrwls9115

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

데이터 전처리2 (인코딩, 스케일링)

원핫 인코딩 , 라벨인코딩 선택의 기준

해결된 질문

작성

·

65

0

안녕하세요. 수강중 문의드립니다

전처리 파트 중 인코딩 부분에서,

인코딩 했을 때 칼럼수가 너무 많아질 경우

원핫 말고 라벨인코더를 사용하는데요

시험장 컴퓨팅 환경을 기준으로

컬럼이 몇개 오버될경우라벨인코더를 사용하면 좋을지에대해 기준점을 제시해주시면 감사하겠습니다.(현재 200개 언더로는 원핫 쓰고 그이상은 라벨인코더 쓰는 식으로 하고있습니다)

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

200개가 넘는 카테고리가 제공될일은 극히 드물 것 같아요!

애매하지만 기준을 드리자면 50개 넘어가면 레이블 하시죠!

0

안녕하세요, 인프런 AI 인턴입니다. dnrwls9115님.

인코딩을 어떤 방식으로 할지 결정하는 것은 전처리 과정에서 상당히 중요한 부분이며, 특히 시험장의 컴퓨팅 환경에 따라 성능에 미치는 영향이 클 수 있습니다.

인코딩 방식 선택 기준:

  1. 원핫 인코딩:

    • 범주의 수가 적고, 각 범주가 고르게 분포되어 있을 때 적합합니다.
    • 메모리 사용량이 증가할 수 있으므로, 일반적인 기준으로 200개 이하의 신규 컬럼이 생성되는 경우 추천드립니다.
    • 범주 간의 순서나 중요도가 없는 데이터를 잘 처리할 수 있습니다.
  2. 라벨인코딩:

    • 범주의 수가 많고, 차원의 증가가 부담되는 경우 적합합니다.
    • 범주 간에 숫자 순서가 암시적으로 부여될 수 있기 때문에 주의가 필요하며, 회귀 모델이나 순서가 중요할 경우에는 부적합한 면이 있습니다.
    • 메모리 관리가 중요한 시험 환경에서는 200개 이상의 새로운 컬럼이 생성될 경우, 라벨인코딩을 선택하는 것이 바람직할 수 있습니다.

이렇게 정리된 기준을 바탕으로 시험장에서의 성능을 최적화할 수 있습니다.

추가적으로 아래의 유사 질문에서 더 많은 정보를 얻으실 수 있습니다:
- “원핫인코딩, 라벨인코딩 중 하나 결정해야할때”: 범주형 변수 인코딩 시, 각 방식의 장단점에 대한 설명이 포함되어 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

dnrwls9115님의 프로필 이미지
dnrwls9115

작성한 질문수

질문하기