inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

실전 데이터 사이언스 Part2. 데이터 전처리

데이터 변환 실습

Titanic 데이터셋 PClass cateogrical -> one hot encoding

385

피카라이언

작성한 질문수 7

0

안녕하세요 선생님.

원핫 인코딩을 categorical data에서 무조건 사용하나요?

만약에 categorical data가 숫자가 아닌 문자(alphabet)이면 당연히 컴퓨터가 못이해하니 변환시켜주는건 맞다고 생각하는데

PClass 같은 경우는 1 2 3이고 벌써 숫자 data인데 굳이 one hot encoding을 써서 바꿔주는 이유가 있을까요?

타이타닉 python 데이터변환 실습

답변 1

1

김화종

좋은 질문입니다.

클래스가 1, 2, 3 정도로 갯수가 적으면 모델(프로그램)이 카테고리 변수로 인식하여 운좋게 잘 동작할 수도 있습니다.

그런데 클래스가 10개라고 하면 1~10의 숫자가 양을 나타내는지 카테고리를 나타내는지 컴퓨터가 구분할 수가 없습니다. 기본적으로는 양으로 인식하게 되고 오동작을 하게 됩니다. 클래스2가 클래스1보다 뭔가 두 배 많은 것을 나타내지는 않겠지요. 국적을 구분할 때도 국가 번호가 양을 나타낸다고 볼 수 없습니다.

따라서 카테고리 변수는 원한 인코딩을 꼭 해주어야 합니다. 단 카테고리가 2개를 구분할 때는 편의상 0/1을 나타내는 한 컬럼(변수)만 써도 동일하게 동작합니다.

더 궁금한 내용 있으면 질문해주세요~

멍슨상이라 이름 변경하시는 게 어떠신지요?

1

12

0

수업 노트가 안 보입니다.

0

14

1

Python formatter 설치

0

11

1

55강 파이썬에만있는 연산자들

0

10

1

55강의 파이썬에서만 있는 연산자들

0

9

1

주말에 실행할 경우 update_economic_data_in_background에 로직 변경 필요성

1

17

1

naver 글자 수집 오류 건

0

14

1

쥬피터 노트북이 실행이 안됩니다.

0

17

1

뒤로가기 버튼 같은 것이 있나요?

0

21

1

Replit 강의 자료가 안나와요

0

16

1

강의 연장 문의

0

18

1

프로그램 실행시간에 대한 질문

1

20

2

비중 및 매수 종목수 조정.

1

22

2

Claude api가 소식 동기화가 늦는 문제

1

35

2

[긴급요청2] 28강 동영상 오류(27강 음성 재생) 수정 예정일자를 알려주세요

0

22

1

codex에게 대용량 코드베이스를 인식 시키는 방법은 어떤게 있나요?

0

29

1

결측값 처리

0

576

1

n_step 값에 대하여

0

453

1

dir*.csv가 안됩니다.

0

329

1

6 시그마 이상 outlier

0

558

1

로그변환에 대하여

0

646

1

In[42] 14:50 코드 질문

0

249

1

표준 스케일링관련 문의

0

320

1

6:14초 dataframe 스케일링한 후 컬럼 추가에 대한 질문

0

741

1