강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của dbk345727
dbk345727

câu hỏi đã được viết

[Chuẩn bị thi thực hành Big Data phân kỳ 2026] Đỗ 100% kỳ thi thực hành Chứng chỉ Chuyên viên Phân tích Dữ liệu Lớn! Nhìn thấy được quy luật của các đề thi đã ra!

Làm quen với môi trường thi dạng bài tập số 1

Label Encoding 관련 질문

Viết

·

92

0

범주형 데이터를 수치형 데이터로 변환하는 과정에서 범주형 컬럼과 범주값이 너무 많은 문제에서 get_dummies를 사용 하는 것보다

Label Encoder를 사용 하는게 나을까요?

Label Encoder는 사용시 개별 데이터를 하나하나 다 작업해 줘야하나요?

조금더 적절한 방법이 있다면 조언 부탁드립니다.

빅데이터빅데이터분석기사

Câu trả lời 3

0

6회 작업형1 2번째문제 풀이가 잘못된거 같습니다.

회사에서 직원한명당 담당하는 프로젝트수면

(1프로젝트+2프로젝트 ...) 이런식으로 구해야되는거 아닌가요 ?

풀이방식은 지금 1프로젝트 전체합 이런식으로 푸신거같습니다.

0

codingkorea님의 프로필 이미지
codingkorea
Người chia sẻ kiến thức

네 ~ 답변드립니다. 시험때 나오는 어떤 문자형 변수(범주형 변수)가 데이터의 종류가 많다면

예를 들어 class_type 이라는 변수가 있는데 이게 값의 종류가 a,b,c,d,e,f,g,h, .... (10개이상)

10개 이상이면 label encoder 를 쓰시구요. 범주의 갯수가 적을때 5개 이하면 get_dummies 를 쓰세요.

일단 1가지로만 확실히 외워가세요. ^^

0

안녕하세요, 인프런 AI 인턴입니다. 유창균님께서 올려주신 Label Encoding 관련 질문에 대한 답변을 드리겠습니다.

범주형 데이터를 수치형 데이터로 변환하는 방법에는 여러 가지가 있지만, 주로 두 가지 방법을 사용합니다: One-Hot Encoding (get_dummies)과 Label Encoding입니다. 다음은 이 두 방법의 차이점과 적절한 사용 상황입니다.

  1. One-Hot Encoding (get_dummies):

    • 장점: 모든 범주를 개별 열로 분리하여 데이터가 모델에 정확하게 인식됩니다. 특히 범주가 서로 독립적인 경우 효과적입니다.
    • 단점: 범주가 많으면 열의 수가 매우 많아질 수 있습니다. 이로 인해 메모리 사용량이 증가하고, 희소 행렬이 생성될 수 있습니다.
    • 적합한 경우: 범주형 변수가 소수의 고유 값을 가지거나, 각 범주 사이의 순서나 우열이 없는 경우.
  2. Label Encoding:

    • 장점: 각 범주를 정수로 변환하여 데이터 크기를 줄일 수 있습니다.
    • 단점: 각 범주가 숫자로 변환되기 때문에, 모델이 이 숫자를 크기나 순서로 잘못 인식할 수 있습니다.
    • 적합한 경우: 범주의 순서가 있는 경우나 사용된 모델이 범주를 단순히 고유 값으로 인식할 수 있는 경우.

적절한 방법 조언:
- 범주 값이 많은 경우, One-Hot Encoding은 비효율적일 수 있습니다. 이때는 Label Encoding이나 다른 인코딩 기술(예: Target Encoding)을 사용해 볼 수 있습니다.
- Target Encoding은 범주에 대한 평균 타겟 값을 사용하여 인코딩하는 방법으로, 범주가 많은 경우 유용할 수 있습니다.

Label Encoder 사용법:
- LabelEncoder는 각 범주형 데이터를 숫자로 변환해주지만, 범주가 많아 모델이 잘못 이해할 수 있으므로 주의가 필요합니다.
- 모든 범주형 칼럼에 각각 LabelEncoder를 적용해야 하며, 이는 각 열에 대해 별도의 인코더를 생성해야 함을 의미합니다.

아래 링크에서는 유사한 주제에 대해 논의된 기존 게시글을 참고하실 수 있습니다:
- “Label Encoding과 One-Hot Encoding 사용 방법”

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

Hình ảnh hồ sơ của dbk345727
dbk345727

câu hỏi đã được viết

Đặt câu hỏi