inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

실전 데이터 사이언스 Part2. 데이터 전처리

데이터 변환 실습

Titanic 데이터셋 PClass cateogrical -> one hot encoding

377

피카라이언

작성한 질문수 7

0

안녕하세요 선생님.

원핫 인코딩을 categorical data에서 무조건 사용하나요?

만약에 categorical data가 숫자가 아닌 문자(alphabet)이면 당연히 컴퓨터가 못이해하니 변환시켜주는건 맞다고 생각하는데

PClass 같은 경우는 1 2 3이고 벌써 숫자 data인데 굳이 one hot encoding을 써서 바꿔주는 이유가 있을까요?

타이타닉 python 데이터변환 실습

답변 1

1

김화종

좋은 질문입니다.

클래스가 1, 2, 3 정도로 갯수가 적으면 모델(프로그램)이 카테고리 변수로 인식하여 운좋게 잘 동작할 수도 있습니다.

그런데 클래스가 10개라고 하면 1~10의 숫자가 양을 나타내는지 카테고리를 나타내는지 컴퓨터가 구분할 수가 없습니다. 기본적으로는 양으로 인식하게 되고 오동작을 하게 됩니다. 클래스2가 클래스1보다 뭔가 두 배 많은 것을 나타내지는 않겠지요. 국적을 구분할 때도 국가 번호가 양을 나타낸다고 볼 수 없습니다.

따라서 카테고리 변수는 원한 인코딩을 꼭 해주어야 합니다. 단 카테고리가 2개를 구분할 때는 편의상 0/1을 나타내는 한 컬럼(변수)만 써도 동일하게 동작합니다.

더 궁금한 내용 있으면 질문해주세요~

가상환경 설정시 문의

0

5

1

개발환경에 대해셔 설명부탁드립니다.

0

10

1

파트9 강의는 언제 오픈하시나요

0

14

2

20년 4,5회 13번

0

9

1

작업형 2 기출7회분에서

0

14

1

11. 데이터를 목록화하는 리스트와 튜플 에서 콘솔 실행시

0

18

1

ZIP 파일

0

21

2

26강 13F 강의 불일치 및 질문 요청

0

25

3

[업로드오류] 강의 내용과 제목 불일치

0

20

2

강의와는 별개로...

0

27

3

[예제002] 에서 파인썬 인터프리터가 없습니다

0

30

3

65강 소리

0

15

1

작업형2 모의문제1 (30강)

0

22

2

섹션 5 CSS selector사용해서 클로링하기2의 커리큘럼 일정 부재?

0

15

2

가상환경 초반 에러_create name

0

25

1

안녕하세요 유튜브 보고 재밌을꺼 같아서 강의 결제해서 보고잇습니다.

0

22

2

결측값 처리

0

560

1

n_step 값에 대하여

0

442

1

dir*.csv가 안됩니다.

0

315

1

6 시그마 이상 outlier

0

544

1

로그변환에 대하여

0

631

1

In[42] 14:50 코드 질문

0

240

1

표준 스케일링관련 문의

0

302

1

6:14초 dataframe 스케일링한 후 컬럼 추가에 대한 질문

0

735

1