원핫 인코딩 차이점
kaggel T2-1 풀이 중 궁금한 사항이 있어 문의 드립니다.
0 PassengerId 712 non-null int64
1 Pclass 712 non-null int64
2 Name 712 non-null object
3 Sex 712 non-null object
4 Age 575 non-null float64
5 SibSp 712 non-null int64
6 Parch 712 non-null int64
7 Ticket 712 non-null object
8 Fare 712 non-null float64
9 Cabin 170 non-null object
10 Embarked 711 non-null object 작성한 풀이
train = pd.get_dummies(X_train, columns=features)
test = pd.get_dummies(X_test, columns=features)
train.shape, test.shape #((712, 26), (179, 25))
해설지 풀이
features = ["Pclass", "Sex", "SibSp", "Parch"]
X = pd.get_dummies(X_train[features])
test = pd.get_dummies(X_test[features])
X.shape, test.shape ##((712, 5), (179, 5))
제 풀이는 원핫인코딩처럼 안된 이유가 무엇일까요..?
답변 1
0
pd.get_dummies(X_train, columns=features)과 pd.get_dummies(X_train[features])는 비슷해 보이지만 전혀 다른방식으로 동작됩니다. 전자는 Features에 있는 컬럼을 무조건 원핫인코딩 하고 반환값은 원핫인코딩을 포함한 전체 데이터 프레임을 반환합니다.
후자는 선택한 컬럼 중 오브젝트 자료형만 원핫인코딩합니다. (Sex컬럼만)
1유형 강의 다 나간 후 어떻게 할까요?
0
15
1
점수차가 많이 나는데 따로 하신게 있으신가요?
0
12
1
작업형1 모의문제 4번에 3)문제 질문
0
21
2
이상치 전처리 작업
0
25
2
평가결과값 문의
0
29
2
시계열 데이터 날짜와 시간 format
0
35
2
평가지표 F1 스코어 질문드립니다.
0
27
2
작업형 2 기출7회분에서
0
38
2
작업형2 모의문제1 (30강)
0
34
2
수강 기간 연장 문의 드립니다.
0
42
2
수강 계획과 관련해 문의 드립니다.
0
30
2
작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?
0
50
2
작업형 1 -연습문제 4-6
0
38
2
작업형 1 유형 부분
0
42
2
작업형 1 (삭제예정, 구 버전)
0
51
2
수강기간 연장 문의드립니다.
0
38
2
2유형 레이블 인코딩 VS 원핫 인코딩
0
37
3
수강기간 연장 문의드립니다.
0
45
2
인덱스 슬라이싱
0
37
2
질문 드립니다.
0
50
2
강의 내용 관련 질문드립니다~
0
46
2
수강 연장 문의
0
63
2
강의자료 일괄 다운로드
0
62
2
수강기간 연장 문의드립니다
0
48
2





