inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Khoa học dữ liệu thực tế Phần 2. Tiền xử lý dữ liệu

Thực hành chuyển đổi dữ liệu

Titanic 데이터셋 PClass cateogrical -> one hot encoding

385

donggeunko2496

7 câu hỏi đã được viết

0

안녕하세요 선생님.

원핫 인코딩을 categorical data에서 무조건 사용하나요?

만약에 categorical data가 숫자가 아닌 문자(alphabet)이면 당연히 컴퓨터가 못이해하니 변환시켜주는건 맞다고 생각하는데

PClass 같은 경우는 1 2 3이고 벌써 숫자 data인데 굳이 one hot encoding을 써서 바꿔주는 이유가 있을까요?

타이타닉 python 데이터변환 실습

Câu trả lời 1

1

hjkim3

좋은 질문입니다.

클래스가 1, 2, 3 정도로 갯수가 적으면 모델(프로그램)이 카테고리 변수로 인식하여 운좋게 잘 동작할 수도 있습니다.

그런데 클래스가 10개라고 하면 1~10의 숫자가 양을 나타내는지 카테고리를 나타내는지 컴퓨터가 구분할 수가 없습니다. 기본적으로는 양으로 인식하게 되고 오동작을 하게 됩니다. 클래스2가 클래스1보다 뭔가 두 배 많은 것을 나타내지는 않겠지요. 국적을 구분할 때도 국가 번호가 양을 나타낸다고 볼 수 없습니다.

따라서 카테고리 변수는 원한 인코딩을 꼭 해주어야 합니다. 단 카테고리가 2개를 구분할 때는 편의상 0/1을 나타내는 한 컬럼(변수)만 써도 동일하게 동작합니다.

더 궁금한 내용 있으면 질문해주세요~

작업형 1 배경지식 질문

0

2

1

옳게 풀은건지 질문드립니다!

0

3

0

roc_auc_score

0

5

1

재귀함수 연산법

0

6

1

추가질문 합니다

0

11

1

시험환경 구름

0

11

1

2유형 질문드려요

0

8

1

RandomForest vs lgb

0

18

1

전처리 관련질문

0

13

2

수강기간즘연장해주세요

0

8

1

작업형3 기출

0

13

1

유형2에서 데이터분할 생략 가능여부

0

20

2

9회 기출 유형3 질문

0

15

1

lgb 기초편

0

10

1

수업자료 문의

0

16

2

괄호 사용

0

15

1

결측값 처리

0

576

1

n_step 값에 대하여

0

451

1

dir*.csv가 안됩니다.

0

327

1

6 시그마 이상 outlier

0

557

1

로그변환에 대하여

0

644

1

In[42] 14:50 코드 질문

0

248

1

표준 스케일링관련 문의

0

317

1

6:14초 dataframe 스케일링한 후 컬럼 추가에 대한 질문

0

740

1