inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

8회 기출유형(작업형2)

2유형 레이블 인코딩 VS 원핫 인코딩

2

anycallkjs

작성한 질문수 1

0

안녕하세요 12회 시험을 준비하고 있는 취준생입니다
다름이 아니라 궁금한게 있어서 이렇게 Q&A를 남깁니다!

레이블 인코딩보다는 원핫 인코딩을 사용하는 것이 훨씬 점수가 작게 나오는데 왜 굳이 이번 레이블 인코딩을 사용했는지 궁금합니다

(원핫 인코딩 쓰면 rf나 lg 모두 946점대가 나와서 레이블보다는 거의 5점대 차이가 납니다!)


혹시 범주형 카테고리가 10개 이상이라서 레이블을 쓰신건가요?
다음 시험때때는 그냥 레이블 보다는 원핫만 써도 상과없는지 궁금합니다!

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. anycallkjs님.

범주형 데이터를 인코딩할 때 라벨 인코딩과 원핫 인코딩은 각각 장단점이 있습니다.

라벨 인코딩 (Label Encoding)

  • 숫자로 된 고유의 ‘라벨’ 형태로 변환하기 때문에 메모리 사용이 적지만, 범주 간에 순서가 생길 수 있습니다. 이는 순서가 중요한 경우나 회귀 분석에서는 문제가 될 수 있습니다.

원핫 인코딩 (One-Hot Encoding)

  • 범주형 변수를 0과 1로 인코딩하여, 변수 간의 관계를 잘 표현할 수 있습니다. 특히, 범주의 수가 적고 독립적일 때 유리합니다.
  • 단점으로는 범주가 많아질 때, 데이터의 차원이 크게 증가할 수 있다는 점입니다.

어떤 경우 어떤 인코딩을 사용할 것인가?

  • 범주의 수가 10개 이하로 작고, 각 범주가 독립적일 경우에는 원핫 인코딩을 사용하는 것이 보편적으로 더 나은 성능을 보일 수 있습니다.
  • 반면, 범주의 수가 매우 많고 데이터의 차원을 제한해야 하는 경우에는 라벨 인코딩을 선택하는 것이 효율적일 수 있습니다.

결국 어떤 방법이 더 나은 결과를 주는지는 데이터의 특성에 따라 다르기 때문에, 시험 준비 중에는 다양한 인코딩 방식으로 실험해 보는 것을 권장합니다.

더 많은 정보를 원하시면 아래의 유사 질문을 참조해 주세요:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

수강기간 연장 문의드립니다.

0

18

1

인덱스 슬라이싱

0

18

2

질문 드립니다.

0

44

2

강의 내용 관련 질문드립니다~

0

42

2

수강 연장 문의

0

49

2

강의자료 일괄 다운로드

0

47

2

수강기간 연장 문의드립니다

0

38

2

list 문제 질문드립니다~

0

34

2

빅분기 실기 12회 재도전

0

49

2

강의 기간 연장 가능여부 검토 요청건

0

36

2

수강기간 연장 문의 드립니다

0

43

2

수강기간 연장 문의드립니다

0

50

2

질문이요

0

53

2

수강기간 연장 문의드립니다.

0

56

2

문제 3-2 질문드립니다

0

46

2

수강기간 연장 문의 드립니다.

0

61

2

변수, 칼럼 , df 구분

0

51

2

수강기간 연장 문의드립니다.

0

50

2

수강기간 연장 문의

0

49

2

수강기간 연장 문의드립니다.

0

42

2

수강기한 연장 문의

0

81

2

수강기간 연장 문의드립니다

0

60

2

결정트리에서 적절한 깊이 선택 후 시각화 과정에서 학습 데이터만 사용하는 이유

0

46

2

수강기간 연장 문의드립니다.

0

72

2