질문 게시판

고민있어요

스터디

팀 프로젝트

멘토링

멘토링 후기

수강평

With us

인프런 피드

블로그

인프런 소개

공지사항

대시보드

강의

홈

로드맵

더보기

카테고리

질문 & 답변
세부 분야

딥러닝 · 머신러닝
해결 여부

미해결

타이타닉 생존자 예측 레이블인코딩 하는 이유

23.02.06 09:58 작성 23.02.06 10:01 수정 조회수 225

0

우선 너무 좋은 강의 덕분에 제가 제조업에서 데이터 사이언티스트 흉내나마 내고 있습니다.

제 기억으론 레이블인코딩보더 원핫인코딩을 더 쓴다고 강의에서 들었던 거 같은데, 왜 타이타닉 생존자 예측에는 레이블인코딩을 한걸까요?
그리고 근거는 없지만 선형회귀에서는 원핫인코딩을 해야할 거 같은데, 분류에서는 딱히 인코딩을 안해도 될 거 같은데 느낌이 드는데, 의견 여쭐 수 있을까요?
그리고 Embarked 항목에 4개 정도 피쳐가 있는데(S, C, Q N) 예측할 데이터에 이 항목에 없는 데이터가 들어오면 어떻게 되나요? 예를 들면 A가 들어와도 중요한 피쳐가 아니면 크게 영향이 없을까요?

course-thumbnail

[개정판] 파이썬 머신러닝 완벽 가이드

사이킷런으로 수행하는 타이타닉 생존자 예측 - 01

강의실 바로가기

답변 1

답변을 작성해보세요.

0

권 철민

지식공유자

2023.02.06

안녕하십니까,

강의가 업무에 도움이 되었다니 저도 기쁘군요 ^^

기본적으로 선형 계열(예를 들어 로지스틱 회귀, SVM등)은 레이블 인코딩 보다 원핫인코딩이 선호됩니다. 그리고 트리 계열(결정트리, 앙상블등)은 두개가 큰 차이가 없습니다.
선형 계열은 원핫 인코딩이 좋지만, 그렇다고 레이블 인코딩이 그렇게 까지 성능에 큰 영향을 미치는 건 아닌것 같습니다. 초반 실습이라 간단하게 구현할 수 있는 레이블 인코딩을 적용했습니다.
회귀든, 분류든 인코딩은 필요합니다. 머신러닝 모델은 문자열 값을 받아들일 수 없으며 모두 숫자형 값으로 변환이 되어야 하기 때문입니다.
예측할 데이터에 기존 학습 데이터에는 없는 레이블 값이 들어와서는 안됩니다. 이 경우 예측시 머신러닝 모델에서 오류가 발생할 수 있습니다. 반드시 예측시에는 학습 데이터에서 인코딩 변환된 레이블 값이 들어와야 합니다.

감사합니다.