타이타닉 생존자 예측 레이블인코딩 하는 이유
410
25 asked
우선 너무 좋은 강의 덕분에 제가 제조업에서 데이터 사이언티스트 흉내나마 내고 있습니다.
제 기억으론 레이블인코딩보더 원핫인코딩을 더 쓴다고 강의에서 들었던 거 같은데, 왜 타이타닉 생존자 예측에는 레이블인코딩을 한걸까요?
그리고 근거는 없지만 선형회귀에서는 원핫인코딩을 해야할 거 같은데, 분류에서는 딱히 인코딩을 안해도 될 거 같은데 느낌이 드는데, 의견 여쭐 수 있을까요?
그리고 Embarked 항목에 4개 정도 피쳐가 있는데(S, C, Q N) 예측할 데이터에 이 항목에 없는 데이터가 들어오면 어떻게 되나요? 예를 들면 A가 들어와도 중요한 피쳐가 아니면 크게 영향이 없을까요?
Answer 1
0
안녕하십니까,
강의가 업무에 도움이 되었다니 저도 기쁘군요 ^^
기본적으로 선형 계열(예를 들어 로지스틱 회귀, SVM등)은 레이블 인코딩 보다 원핫인코딩이 선호됩니다. 그리고 트리 계열(결정트리, 앙상블등)은 두개가 큰 차이가 없습니다.
선형 계열은 원핫 인코딩이 좋지만, 그렇다고 레이블 인코딩이 그렇게 까지 성능에 큰 영향을 미치는 건 아닌것 같습니다. 초반 실습이라 간단하게 구현할 수 있는 레이블 인코딩을 적용했습니다.
회귀든, 분류든 인코딩은 필요합니다. 머신러닝 모델은 문자열 값을 받아들일 수 없으며 모두 숫자형 값으로 변환이 되어야 하기 때문입니다.
예측할 데이터에 기존 학습 데이터에는 없는 레이블 값이 들어와서는 안됩니다. 이 경우 예측시 머신러닝 모델에서 오류가 발생할 수 있습니다. 반드시 예측시에는 학습 데이터에서 인코딩 변환된 레이블 값이 들어와야 합니다.
감사합니다.
안녕하세요 열심히 수강중인 학생입니다
0
63
2
정수 인덱싱
0
68
2
넘파이 오류
0
85
2
11강 numpy의 axis 축 질문 드립니다.
0
85
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
79
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
70
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
75
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
64
2
5강 강의 오류가 있어요.
0
84
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
72
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
69
3
파이썬 다운그레이 후 사이킷런 재설치
0
117
2
좋은 강의 감사합니다.
0
73
2
scoring 함수 음수값
0
67
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
100
2
분류 평가 정확도 예측
0
79
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
99
1
카카오톡 채널 있나요
0
108
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
190
2
pca 스케일링 관련하여 질문드립니다.
0
100
2
주피터 대신 구글 코랩
0
172
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
148
2
실루엣 스코어..
0
86
2
float64 null 값 처리 방법
0
103
2

