categorical 변수의 수치화
강의 중에 성별의 경우 성별이라는 COLUMN에 여자는 0, 남자는 1 이런식으로 하면 안 되고 여자 칼럼/남자 칼럼을 나눠줘야 한다고 하셨는데 그 이유가 뭔지 질문 드립니다! 대소관계가 없도록 하는 거라고 하셨는데, 잘 이해가 되지 않아서요! 또 그럼 반대로 ordinal category의 경우 사이즈라는 칼럼을 만들어서 L은 3, m은 2, s는 1로 한 번에 넣어도 괜찮은 건가요? 늘 감사합니다, 강사님!
답변 1
0
성별을 여자 칼럼과 남자 칼럼으로 나누어 표현하는 것은 원-핫 인코딩(one-hot encoding)을 통해 카테고리 간에 계층적 혹은 수치적 대소관계가 없도록 하기 위해서입니다.
성별을 단일 숫자(예: 남자=1, 여자=0)로 표현하게 되면, 모델이 수치적 대소관계(남자 > 여자)를 잘못 학습할 위험이 있습니다.
반면, 서수형(ordinal) 카테고리는 그 값에 따라 순서나 등급을 나타내는 특성을 가지기 때문에, 사이즈와 같은 카테고리에는 L, M, S를 각각 3, 2, 1과 같이 숫자로 표현하는 것이 적합할 수 있습니다.
요약하면, 순서가 중요한 카테고리는 ordinal 인코딩을, 순서가 중요하지 않은 카테고리는 원-핫 인코딩을 사용하는 것이 좋습니다. 좋은 질문 감사합니다.
Colab실습관련
0
59
2
get_dummies 관련문의
0
63
2
강의 수강
0
73
1
섹션 10 비지도 학습에 대하여
0
65
1
훈련과 Predict를 분리할수 없나요?
0
92
2
scikit-learn이 업데이트 된 건가요?
0
158
2
feature scaling 부분
0
124
2
MAtplotlib 기초
0
117
1
섹션9 First Autoencoder 인코더, 디코더 모델 생성 오류 해결 방법
0
196
1
섹션7 텐서플로 허브 Trained_MobileNet 모델 생성 오류 해결 방법
0
330
1
Crash 파일 위치
0
252
1
주피터에서 파일 열기
0
307
1
션 7. CNN (Convolutional Neural Network)의 7번째 강의는 실습 - FashionMNIST 데이터셋 이용 실습 문제 풀이 관련 강의 내용순서 문의
0
245
1
DBSCAN 실습 결과
0
258
1
DBSCAN 질문
0
222
1
Feature Scaling 강의 질문 있습니다!
0
250
1
heatmap에서 numeric_only=True
0
301
1
pd.Series
0
218
1
Feature Scaling
0
223
1
Residual Error
1
186
1
매트릭스로 만들어주는 것
1
183
1
tf.data 를 이용한 shuffling and batch 구성 관련 문의
1
366
2
타이타닉 예제에서 혼동되는 개념이있습니다!
1
278
1
LeNet-5 실습 중 loss값 nan이 나오고 있습니다.
0
656
1





