kaggle_titanic_pclass one-hot encoding에 대해 질문드립니다.

19.09.25 15:11 작성 조회수 86

0

안녕하세요, 

강의 잘 들었습니다. 

현재는 필요한 부분을 다시 들으며 복습하고 있습니다. 

강의 중 kaggle의 titanic 문제에 대해 다루는 부분에 대해 질문드립니다. 

embarked의 경우엔 텍스트로 된 범주형 자료이기에  one-hot encoding으로 분류해주는 것으로 이해했습니다. 

하지만 강의에서는 pclass의 경우 구분해주지 않고 숫자 그대로 사용하고 있습니다. 

하지만 엄밀한 의미에서 pclass도 숫자이긴 하지만 fare와 같은 연속형 자료가 아닌 범주형 자료이기 때문에 

one-hot encoding으로 분류를 해주어야 하지 않은지 문의드립니다. 

만약 하지 않아도 괜찮다면, embarked도 01,2,3,으로 나누어서 작업해도 되지 않은지도 궁금합니다. 

+혹시 pclass가 범주형 자료이지만 계급이라는 특성상 하이에라키가 있어서 연속형의 성질을 가지고 있어서 one-hot encoding을 하지 않다고 되는 것인지도 문의드립니다. 

감사합니다. 

답변 0

답변을 작성해보세요.

답변을 기다리고 있는 질문이에요.
첫번째 답변을 남겨보세요!