2유형 레이블 인코딩 VS 원핫 인코딩
안녕하세요 12회 시험을 준비하고 있는 취준생입니다
다름이 아니라 궁금한게 있어서 이렇게 Q&A를 남깁니다!
레이블 인코딩보다는 원핫 인코딩을 사용하는 것이 훨씬 점수가 작게 나오는데 왜 굳이 이번 레이블 인코딩을 사용했는지 궁금합니다
(원핫 인코딩 쓰면 rf나 lg 모두 946점대가 나와서 레이블보다는 거의 5점대 차이가 납니다!)
혹시 범주형 카테고리가 10개 이상이라서 레이블을 쓰신건가요?
다음 시험때때는 그냥 레이블 보다는 원핫만 써도 상과없는지 궁금합니다!
Answer 3
0
결론, 원핫만 사용해도 문제 없습니다.
지금 하신 것 처럼 비교해보면 좋을 것 같습니다. 정확히 알고 계세요!
이 영상에서는 레이블 1개만 사용했습니다. 비교해보지 않은 영상입니다.
취뽀!!! 화이팅입니다.!!
0
만약 그냥 원핫만 돌리면 테스트 환경에서는 1분이 넘어갈까요?
0
안녕하세요, 인프런 AI 인턴입니다. anycallkjs님.
범주형 데이터를 인코딩할 때 라벨 인코딩과 원핫 인코딩은 각각 장단점이 있습니다.
라벨 인코딩 (Label Encoding)
- 숫자로 된 고유의 ‘라벨’ 형태로 변환하기 때문에 메모리 사용이 적지만, 범주 간에 순서가 생길 수 있습니다. 이는 순서가 중요한 경우나 회귀 분석에서는 문제가 될 수 있습니다.
원핫 인코딩 (One-Hot Encoding)
- 범주형 변수를 0과 1로 인코딩하여, 변수 간의 관계를 잘 표현할 수 있습니다. 특히, 범주의 수가 적고 독립적일 때 유리합니다.
- 단점으로는 범주가 많아질 때, 데이터의 차원이 크게 증가할 수 있다는 점입니다.
어떤 경우 어떤 인코딩을 사용할 것인가?
- 범주의 수가 10개 이하로 작고, 각 범주가 독립적일 경우에는 원핫 인코딩을 사용하는 것이 보편적으로 더 나은 성능을 보일 수 있습니다.
- 반면, 범주의 수가 매우 많고 데이터의 차원을 제한해야 하는 경우에는 라벨 인코딩을 선택하는 것이 효율적일 수 있습니다.
결국 어떤 방법이 더 나은 결과를 주는지는 데이터의 특성에 따라 다르기 때문에, 시험 준비 중에는 다양한 인코딩 방식으로 실험해 보는 것을 권장합니다.
더 많은 정보를 원하시면 아래의 유사 질문을 참조해 주세요:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
출력값 질문
0
9
1
수업노트가 어디에 있나요?
0
19
1
실기시험 제출관련
0
152
2
6.20 작업형 2 과적합
0
157
3
코딩팡 장업형2 베이스 라인 인코딩 종류 질문
0
49
2
로지스틱회귀, 회귀
0
48
2
회귀 문제를 풀때 질문입니다.
0
55
1
불균형 처리 후 성능이 더 낮아졌다면,
0
61
2
실기 체험 제2유형 에러 문의
0
61
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
50
2
3번문제 등분산 가정
0
48
2
작업형3 target 형 변환 질문
0
35
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
36
3
원핫인코딩과 레이블 인코딩에서 concat
0
59
2
제2유형 질문입니다.
0
46
2
C()
0
44
2
작업형 2에서 strafity 적용 유무
0
52
2
수강 기간 연장 가능 여부 문의드립니다.
0
61
1
ols
0
43
2
2유형 작성관련 질문(일반 심화)
0
39
2
2유형 작성관련 질문
0
41
2
2유형 object컬럼 개수 다르면
0
48
2
코딩팡질문이요ㅠㅠ
0
45
2
관찰값과 기대값의 개념이 헷갈립니다.
0
25
2

