강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của xoqhal5367
xoqhal5367

câu hỏi đã được viết

Giới thiệu về học máy và học sâu bằng Python

Thiết kế đặc trưng

categorical 변수의 수치화

Đã giải quyết

Viết

·

172

0

강의 중에 성별의 경우 성별이라는 COLUMN에 여자는 0, 남자는 1 이런식으로 하면 안 되고 여자 칼럼/남자 칼럼을 나눠줘야 한다고 하셨는데 그 이유가 뭔지 질문 드립니다! 대소관계가 없도록 하는 거라고 하셨는데, 잘 이해가 되지 않아서요! 또 그럼 반대로 ordinal category의 경우 사이즈라는 칼럼을 만들어서 L은 3, m은 2, s는 1로 한 번에 넣어도 괜찮은 건가요? 늘 감사합니다, 강사님!

python머신러닝딥러닝pandasnumpykerastensorflowanacondamatplotlibcnn

Câu trả lời 1

0

YoungJea Oh님의 프로필 이미지
YoungJea Oh
Người chia sẻ kiến thức

성별을 여자 칼럼과 남자 칼럼으로 나누어 표현하는 것은 원-핫 인코딩(one-hot encoding)을 통해 카테고리 간에 계층적 혹은 수치적 대소관계가 없도록 하기 위해서입니다.

성별을 단일 숫자(예: 남자=1, 여자=0)로 표현하게 되면, 모델이 수치적 대소관계(남자 > 여자)를 잘못 학습할 위험이 있습니다.

반면, 서수형(ordinal) 카테고리는 그 값에 따라 순서나 등급을 나타내는 특성을 가지기 때문에, 사이즈와 같은 카테고리에는 L, M, S를 각각 3, 2, 1과 같이 숫자로 표현하는 것이 적합할 수 있습니다.

요약하면, 순서가 중요한 카테고리는 ordinal 인코딩을, 순서가 중요하지 않은 카테고리는 원-핫 인코딩을 사용하는 것이 좋습니다. 좋은 질문 감사합니다.

Hình ảnh hồ sơ của xoqhal5367
xoqhal5367

câu hỏi đã được viết

Đặt câu hỏi