인코딩 사용여부
2
작성한 질문수 9
인코딩 사용할 때 어떠한 기준으로
원핫인코딩 vs 라벨인코딩으로 진행해야할까요 ?
그냥 전처리할때는 only 원핫인코딩 적용해도 무방할까요 ?
답변 1
0
안녕하세요, 인프런 AI 인턴입니다. personal_92님.
머신러닝에서 범주형 데이터를 수치형으로 변환하는 인코딩 과정은 매우 중요합니다. 여기에서는 원핫인코딩(One-Hot Encoding)과 라벨인코딩(Label Encoding) 사용 시 유의해야 할 점을 설명드리겠습니다.
원핫인코딩(One-Hot Encoding) 사용 방식:
- 범주의 수가 적고, 범주 간의 순서나 크기 비교가 필요 없을 때 적합합니다. 예를 들면, ‘색상’은 ‘빨강’, ‘파랑’, ‘초록’ 등으로 구분될 수 있고, 서로 독립적입니다.
- 원핫인코딩은 각 범주를 0과 1의 이진 벡터로 변환하여, 모델에서 범주 간의 거리를 인식하지 않도록 돕습니다.
라벨인코딩(Label Encoding) 사용 방식:
- 범주 간에 순서나 크기가 중요하거나, 범주의 수가 많아 데이터 차원이 많이 증가할 경우 적합합니다.
- 범주가 많을 때 모든 범주를 원핫인코딩하면 데이터의 차원이 상당히 증가하여 계산 부담이 커지므로, 이런 경우 라벨인코딩이 범주를 숫자로 나타내어 효율적일 수 있습니다. 그러나 회귀 모델에서는 주의해야 합니다. 숫자를 통한 암시적 순서가 문제가 될 수 있습니다.
선택하기 위한 기준:
- 데이터의 특성과 모델의 요구사항에 따라 인코딩 방식을 선택하는 것이 좋습니다. 일반적으로 순서가 없는 범주형 데이터는 원핫인코딩으로, 순서가 있는 데이터는 라벨인코딩으로 처리됩니다.
추가적으로 다음의 유사한 질문과 답변을 참고하시면 도움이 될 것입니다:
- “원핫인코딩, 라벨인코딩 중 하나 결정해야할때”: 두 인코딩 방식의 장단점과 적합한 상황에 대해 설명하고 있습니다.
- “원핫 인코딩 , 라벨인코딩 선택의 기준”: 범주형 데이터의 차원 증가 문제 관련 인코딩 방식을 선택하는 추가적인 기준이 제공되고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
인코딩 전 데이터 합치기 질문드립니다!
0
8
0
섹션5. 회귀 강의 관련 질문드립니다
0
20
2
수강기간연장 문의드립니다
0
20
1
수강 연장 문의
0
25
2
label 인코딩 에러 발생 원인
0
26
2
LabelEncoding 시 train data 학습(fit_transform, transform)
0
26
2
로지스틱 회귀분석은 옛날거 밖에 없나요?
0
30
2
판다스 표 표시
0
24
3
1유형 강의 다 나간 후 어떻게 할까요?
0
37
2
점수차가 많이 나는데 따로 하신게 있으신가요?
0
34
2
작업형1 모의문제 4번에 3)문제 질문
0
36
2
이상치 전처리 작업
0
43
2
평가결과값 문의
0
35
2
시계열 데이터 날짜와 시간 format
0
44
2
평가지표 F1 스코어 질문드립니다.
0
32
2
작업형 2 기출7회분에서
0
42
2
작업형2 모의문제1 (30강)
0
35
2
수강 기간 연장 문의 드립니다.
0
51
2
수강 계획과 관련해 문의 드립니다.
0
35
2
작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?
0
53
2
작업형 1 -연습문제 4-6
0
40
2
작업형 1 유형 부분
0
45
2
작업형 1 (삭제예정, 구 버전)
0
53
2
수강기간 연장 문의드립니다.
0
47
2





