inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

파이썬을 활용한 머신러닝 딥러닝 입문

Feature Engineering

categorical 변수의 수치화

해결된 질문

181

태보미

작성한 질문수 16

0

강의 중에 성별의 경우 성별이라는 COLUMN에 여자는 0, 남자는 1 이런식으로 하면 안 되고 여자 칼럼/남자 칼럼을 나눠줘야 한다고 하셨는데 그 이유가 뭔지 질문 드립니다! 대소관계가 없도록 하는 거라고 하셨는데, 잘 이해가 되지 않아서요! 또 그럼 반대로 ordinal category의 경우 사이즈라는 칼럼을 만들어서 L은 3, m은 2, s는 1로 한 번에 넣어도 괜찮은 건가요? 늘 감사합니다, 강사님!

python 머신러닝 딥러닝 pandas numpy keras tensorflow anaconda matplotlib cnn

답변 1

0

YoungJea Oh

성별을 여자 칼럼과 남자 칼럼으로 나누어 표현하는 것은 원-핫 인코딩(one-hot encoding)을 통해 카테고리 간에 계층적 혹은 수치적 대소관계가 없도록 하기 위해서입니다.

성별을 단일 숫자(예: 남자=1, 여자=0)로 표현하게 되면, 모델이 수치적 대소관계(남자 > 여자)를 잘못 학습할 위험이 있습니다.

반면, 서수형(ordinal) 카테고리는 그 값에 따라 순서나 등급을 나타내는 특성을 가지기 때문에, 사이즈와 같은 카테고리에는 L, M, S를 각각 3, 2, 1과 같이 숫자로 표현하는 것이 적합할 수 있습니다.

요약하면, 순서가 중요한 카테고리는 ordinal 인코딩을, 순서가 중요하지 않은 카테고리는 원-핫 인코딩을 사용하는 것이 좋습니다. 좋은 질문 감사합니다.

Colab실습관련

0

59

2

get_dummies 관련문의

0

63

2

강의 수강

0

73

1

섹션 10 비지도 학습에 대하여

0

65

1

훈련과 Predict를 분리할수 없나요?

0

92

2

scikit-learn이 업데이트 된 건가요?

0

158

2

feature scaling 부분

0

124

2

MAtplotlib 기초

0

117

1

섹션9 First Autoencoder 인코더, 디코더 모델 생성 오류 해결 방법

0

196

1

섹션7 텐서플로 허브 Trained_MobileNet 모델 생성 오류 해결 방법

0

330

1

Crash 파일 위치

0

252

1

주피터에서 파일 열기

0

307

1

션 7. CNN (Convolutional Neural Network)의 7번째 강의는 실습 - FashionMNIST 데이터셋 이용 실습 문제 풀이 관련 강의 내용순서 문의

0

245

1

DBSCAN 실습 결과

0

258

1

DBSCAN 질문

0

222

1

Feature Scaling 강의 질문 있습니다!

0

250

1

heatmap에서 numeric_only=True

0

301

1

pd.Series

0

218

1

Feature Scaling

0

223

1

Residual Error

1

186

1

매트릭스로 만들어주는 것

1

183

1

tf.data 를 이용한 shuffling and batch 구성 관련 문의

1

366

2

타이타닉 예제에서 혼동되는 개념이있습니다!

1

278

1

LeNet-5 실습 중 loss값 nan이 나오고 있습니다.

0

656

1