Titanic 데이터셋 PClass cateogrical -> one hot encoding
377
작성한 질문수 7
안녕하세요 선생님.
원핫 인코딩을 categorical data에서 무조건 사용하나요?
만약에 categorical data가 숫자가 아닌 문자(alphabet)이면 당연히 컴퓨터가 못이해하니 변환시켜주는건 맞다고 생각하는데
PClass 같은 경우는 1 2 3이고 벌써 숫자 data인데 굳이 one hot encoding을 써서 바꿔주는 이유가 있을까요?
답변 1
1
좋은 질문입니다.
클래스가 1, 2, 3 정도로 갯수가 적으면 모델(프로그램)이 카테고리 변수로 인식하여 운좋게 잘 동작할 수도 있습니다.
그런데 클래스가 10개라고 하면 1~10의 숫자가 양을 나타내는지 카테고리를 나타내는지 컴퓨터가 구분할 수가 없습니다. 기본적으로는 양으로 인식하게 되고 오동작을 하게 됩니다. 클래스2가 클래스1보다 뭔가 두 배 많은 것을 나타내지는 않겠지요. 국적을 구분할 때도 국가 번호가 양을 나타낸다고 볼 수 없습니다.
따라서 카테고리 변수는 원한 인코딩을 꼭 해주어야 합니다. 단 카테고리가 2개를 구분할 때는 편의상 0/1을 나타내는 한 컬럼(변수)만 써도 동일하게 동작합니다.
더 궁금한 내용 있으면 질문해주세요~
가상환경 설정시 문의
0
5
1
개발환경에 대해셔 설명부탁드립니다.
0
10
1
파트9 강의는 언제 오픈하시나요
0
14
2
20년 4,5회 13번
0
9
1
작업형 2 기출7회분에서
0
14
1
11. 데이터를 목록화하는 리스트와 튜플 에서 콘솔 실행시
0
18
1
ZIP 파일
0
21
2
26강 13F 강의 불일치 및 질문 요청
0
25
3
[업로드오류] 강의 내용과 제목 불일치
0
20
2
강의와는 별개로...
0
27
3
[예제002] 에서 파인썬 인터프리터가 없습니다
0
30
3
65강 소리
0
15
1
작업형2 모의문제1 (30강)
0
22
2
섹션 5 CSS selector사용해서 클로링하기2의 커리큘럼 일정 부재?
0
15
2
가상환경 초반 에러_create name
0
25
1
안녕하세요 유튜브 보고 재밌을꺼 같아서 강의 결제해서 보고잇습니다.
0
22
2
결측값 처리
0
560
1
n_step 값에 대하여
0
442
1
dir*.csv가 안됩니다.
0
315
1
6 시그마 이상 outlier
0
544
1
로그변환에 대하여
0
631
1
In[42] 14:50 코드 질문
0
240
1
표준 스케일링관련 문의
0
302
1
6:14초 dataframe 스케일링한 후 컬럼 추가에 대한 질문
0
735
1





