• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    해결됨

categorical 변수의 수치화

24.04.15 00:37 작성 조회수 47

0

강의 중에 성별의 경우 성별이라는 COLUMN에 여자는 0, 남자는 1 이런식으로 하면 안 되고 여자 칼럼/남자 칼럼을 나눠줘야 한다고 하셨는데 그 이유가 뭔지 질문 드립니다! 대소관계가 없도록 하는 거라고 하셨는데, 잘 이해가 되지 않아서요! 또 그럼 반대로 ordinal category의 경우 사이즈라는 칼럼을 만들어서 L은 3, m은 2, s는 1로 한 번에 넣어도 괜찮은 건가요? 늘 감사합니다, 강사님!

답변 1

답변을 작성해보세요.

0

성별을 여자 칼럼과 남자 칼럼으로 나누어 표현하는 것은 원-핫 인코딩(one-hot encoding)을 통해 카테고리 간에 계층적 혹은 수치적 대소관계가 없도록 하기 위해서입니다.

성별을 단일 숫자(예: 남자=1, 여자=0)로 표현하게 되면, 모델이 수치적 대소관계(남자 > 여자)를 잘못 학습할 위험이 있습니다.

반면, 서수형(ordinal) 카테고리는 그 값에 따라 순서나 등급을 나타내는 특성을 가지기 때문에, 사이즈와 같은 카테고리에는 L, M, S를 각각 3, 2, 1과 같이 숫자로 표현하는 것이 적합할 수 있습니다.

요약하면, 순서가 중요한 카테고리는 ordinal 인코딩을, 순서가 중요하지 않은 카테고리는 원-핫 인코딩을 사용하는 것이 좋습니다. 좋은 질문 감사합니다.