inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Khoa học dữ liệu thực tế Phần 2. Tiền xử lý dữ liệu

Thực hành chuyển đổi dữ liệu

Titanic 데이터셋 PClass cateogrical -> one hot encoding

376

donggeunko2496

7 câu hỏi đã được viết

0

안녕하세요 선생님.

원핫 인코딩을 categorical data에서 무조건 사용하나요?

만약에 categorical data가 숫자가 아닌 문자(alphabet)이면 당연히 컴퓨터가 못이해하니 변환시켜주는건 맞다고 생각하는데

PClass 같은 경우는 1 2 3이고 벌써 숫자 data인데 굳이 one hot encoding을 써서 바꿔주는 이유가 있을까요?

타이타닉 python 데이터변환 실습

Câu trả lời 1

1

hjkim3

좋은 질문입니다.

클래스가 1, 2, 3 정도로 갯수가 적으면 모델(프로그램)이 카테고리 변수로 인식하여 운좋게 잘 동작할 수도 있습니다.

그런데 클래스가 10개라고 하면 1~10의 숫자가 양을 나타내는지 카테고리를 나타내는지 컴퓨터가 구분할 수가 없습니다. 기본적으로는 양으로 인식하게 되고 오동작을 하게 됩니다. 클래스2가 클래스1보다 뭔가 두 배 많은 것을 나타내지는 않겠지요. 국적을 구분할 때도 국가 번호가 양을 나타낸다고 볼 수 없습니다.

따라서 카테고리 변수는 원한 인코딩을 꼭 해주어야 합니다. 단 카테고리가 2개를 구분할 때는 편의상 0/1을 나타내는 한 컬럼(변수)만 써도 동일하게 동작합니다.

더 궁금한 내용 있으면 질문해주세요~

구글 그래피티 마켓 오류...?!

0

7

2

디스코드 소통창구는 없어졌나요 ??

0

7

1

FOREIGN KEY 정리하기, 영상대로 SQL코드 복붙해도 안되요.

0

5

1

모델 서빙과 관련된 강좌 출시 예정된 바가 있으신지 여쭤봅니다!

0

7

1

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

5

1

20번강좌에 대한 질문입니다.

0

6

1

6-6

0

18

1

작업형 1 유형 부분

0

16

2

수강평 이벤트

0

22

2

작업형 1 (삭제예정, 구 버전)

0

34

2

강의노트는 어디있나요?

0

21

1

노션 학습 자료 권한 요청

0

17

1

수강기간 연장 문의드립니다.

0

26

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

25

3

part2강의 문의사항입니다.

0

23

2

수강기간 연장 문의드립니다.

0

28

1

결측값 처리

0

559

1

n_step 값에 대하여

0

441

1

dir*.csv가 안됩니다.

0

314

1

6 시그마 이상 outlier

0

544

1

로그변환에 대하여

0

630

1

In[42] 14:50 코드 질문

0

240

1

표준 스케일링관련 문의

0

302

1

6:14초 dataframe 스케일링한 후 컬럼 추가에 대한 질문

0

733

1