Inflearn brand logo image

인프런 커뮤니티 질문&답변

유창균님의 프로필 이미지
유창균

작성한 질문수

[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !

작업형1번 시험환경에서 체함하기

Label Encoding 관련 질문

작성

·

59

0

범주형 데이터를 수치형 데이터로 변환하는 과정에서 범주형 컬럼과 범주값이 너무 많은 문제에서 get_dummies를 사용 하는 것보다

Label Encoder를 사용 하는게 나을까요?

Label Encoder는 사용시 개별 데이터를 하나하나 다 작업해 줘야하나요?

조금더 적절한 방법이 있다면 조언 부탁드립니다.

답변 3

0

6회 작업형1 2번째문제 풀이가 잘못된거 같습니다.

회사에서 직원한명당 담당하는 프로젝트수면

(1프로젝트+2프로젝트 ...) 이런식으로 구해야되는거 아닌가요 ?

풀이방식은 지금 1프로젝트 전체합 이런식으로 푸신거같습니다.

0

코딩 대한민국님의 프로필 이미지
코딩 대한민국
지식공유자

네 ~ 답변드립니다. 시험때 나오는 어떤 문자형 변수(범주형 변수)가 데이터의 종류가 많다면

예를 들어 class_type 이라는 변수가 있는데 이게 값의 종류가 a,b,c,d,e,f,g,h, .... (10개이상)

10개 이상이면 label encoder 를 쓰시구요. 범주의 갯수가 적을때 5개 이하면 get_dummies 를 쓰세요.

일단 1가지로만 확실히 외워가세요. ^^

0

안녕하세요, 인프런 AI 인턴입니다. 유창균님께서 올려주신 Label Encoding 관련 질문에 대한 답변을 드리겠습니다.

범주형 데이터를 수치형 데이터로 변환하는 방법에는 여러 가지가 있지만, 주로 두 가지 방법을 사용합니다: One-Hot Encoding (get_dummies)과 Label Encoding입니다. 다음은 이 두 방법의 차이점과 적절한 사용 상황입니다.

  1. One-Hot Encoding (get_dummies):

    • 장점: 모든 범주를 개별 열로 분리하여 데이터가 모델에 정확하게 인식됩니다. 특히 범주가 서로 독립적인 경우 효과적입니다.
    • 단점: 범주가 많으면 열의 수가 매우 많아질 수 있습니다. 이로 인해 메모리 사용량이 증가하고, 희소 행렬이 생성될 수 있습니다.
    • 적합한 경우: 범주형 변수가 소수의 고유 값을 가지거나, 각 범주 사이의 순서나 우열이 없는 경우.
  2. Label Encoding:

    • 장점: 각 범주를 정수로 변환하여 데이터 크기를 줄일 수 있습니다.
    • 단점: 각 범주가 숫자로 변환되기 때문에, 모델이 이 숫자를 크기나 순서로 잘못 인식할 수 있습니다.
    • 적합한 경우: 범주의 순서가 있는 경우나 사용된 모델이 범주를 단순히 고유 값으로 인식할 수 있는 경우.

적절한 방법 조언:
- 범주 값이 많은 경우, One-Hot Encoding은 비효율적일 수 있습니다. 이때는 Label Encoding이나 다른 인코딩 기술(예: Target Encoding)을 사용해 볼 수 있습니다.
- Target Encoding은 범주에 대한 평균 타겟 값을 사용하여 인코딩하는 방법으로, 범주가 많은 경우 유용할 수 있습니다.

Label Encoder 사용법:
- LabelEncoder는 각 범주형 데이터를 숫자로 변환해주지만, 범주가 많아 모델이 잘못 이해할 수 있으므로 주의가 필요합니다.
- 모든 범주형 칼럼에 각각 LabelEncoder를 적용해야 하며, 이는 각 열에 대해 별도의 인코더를 생성해야 함을 의미합니다.

아래 링크에서는 유사한 주제에 대해 논의된 기존 게시글을 참고하실 수 있습니다:
- “Label Encoding과 One-Hot Encoding 사용 방법”

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

유창균님의 프로필 이미지
유창균

작성한 질문수

질문하기