원핫 인코딩 차이점
kaggel T2-1 풀이 중 궁금한 사항이 있어 문의 드립니다.
0 PassengerId 712 non-null int64
1 Pclass 712 non-null int64
2 Name 712 non-null object
3 Sex 712 non-null object
4 Age 575 non-null float64
5 SibSp 712 non-null int64
6 Parch 712 non-null int64
7 Ticket 712 non-null object
8 Fare 712 non-null float64
9 Cabin 170 non-null object
10 Embarked 711 non-null object 작성한 풀이
train = pd.get_dummies(X_train, columns=features)
test = pd.get_dummies(X_test, columns=features)
train.shape, test.shape #((712, 26), (179, 25))
해설지 풀이
features = ["Pclass", "Sex", "SibSp", "Parch"]
X = pd.get_dummies(X_train[features])
test = pd.get_dummies(X_test[features])
X.shape, test.shape ##((712, 5), (179, 5))
제 풀이는 원핫인코딩처럼 안된 이유가 무엇일까요..?
답변 1
0
pd.get_dummies(X_train, columns=features)과 pd.get_dummies(X_train[features])는 비슷해 보이지만 전혀 다른방식으로 동작됩니다. 전자는 Features에 있는 컬럼을 무조건 원핫인코딩 하고 반환값은 원핫인코딩을 포함한 전체 데이터 프레임을 반환합니다.
후자는 선택한 컬럼 중 오브젝트 자료형만 원핫인코딩합니다. (Sex컬럼만)
평가지표 F1 스코어 질문드립니다.
0
9
2
작업형 2 기출7회분에서
0
24
2
작업형2 모의문제1 (30강)
0
25
2
수강 기간 연장 문의 드립니다.
0
31
2
수강 계획과 관련해 문의 드립니다.
0
26
2
작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?
0
49
2
작업형 1 -연습문제 4-6
0
35
2
작업형 1 유형 부분
0
42
2
작업형 1 (삭제예정, 구 버전)
0
51
2
수강기간 연장 문의드립니다.
0
37
2
2유형 레이블 인코딩 VS 원핫 인코딩
0
37
3
수강기간 연장 문의드립니다.
0
44
2
인덱스 슬라이싱
0
36
2
질문 드립니다.
0
50
2
강의 내용 관련 질문드립니다~
0
46
2
수강 연장 문의
0
63
2
강의자료 일괄 다운로드
0
58
2
수강기간 연장 문의드립니다
0
48
2
list 문제 질문드립니다~
0
38
2
빅분기 실기 12회 재도전
0
63
2
강의 기간 연장 가능여부 검토 요청건
0
51
2
수강기간 연장 문의 드립니다
0
46
2
수강기간 연장 문의드립니다
0
52
2
질문이요
0
57
2





