• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

타이타닉 생존자 예측 레이블인코딩 하는 이유

23.02.06 09:58 작성 23.02.06 10:01 수정 조회수 225

0

우선 너무 좋은 강의 덕분에 제가 제조업에서 데이터 사이언티스트 흉내나마 내고 있습니다.

  1. 제 기억으론 레이블인코딩보더 원핫인코딩을 더 쓴다고 강의에서 들었던 거 같은데, 왜 타이타닉 생존자 예측에는 레이블인코딩을 한걸까요?

  2. 그리고 근거는 없지만 선형회귀에서는 원핫인코딩을 해야할 거 같은데, 분류에서는 딱히 인코딩을 안해도 될 거 같은데 느낌이 드는데, 의견 여쭐 수 있을까요?

  3. 그리고 Embarked 항목에 4개 정도 피쳐가 있는데(S, C, Q N) 예측할 데이터에 이 항목에 없는 데이터가 들어오면 어떻게 되나요? 예를 들면 A가 들어와도 중요한 피쳐가 아니면 크게 영향이 없을까요?

 

답변 1

답변을 작성해보세요.

0

안녕하십니까,

강의가 업무에 도움이 되었다니 저도 기쁘군요 ^^

  1. 기본적으로 선형 계열(예를 들어 로지스틱 회귀, SVM등)은 레이블 인코딩 보다 원핫인코딩이 선호됩니다. 그리고 트리 계열(결정트리, 앙상블등)은 두개가 큰 차이가 없습니다.

    선형 계열은 원핫 인코딩이 좋지만, 그렇다고 레이블 인코딩이 그렇게 까지 성능에 큰 영향을 미치는 건 아닌것 같습니다. 초반 실습이라 간단하게 구현할 수 있는 레이블 인코딩을 적용했습니다.

     

  2. 회귀든, 분류든 인코딩은 필요합니다. 머신러닝 모델은 문자열 값을 받아들일 수 없으며 모두 숫자형 값으로 변환이 되어야 하기 때문입니다.

     

  3. 예측할 데이터에 기존 학습 데이터에는 없는 레이블 값이 들어와서는 안됩니다. 이 경우 예측시 머신러닝 모델에서 오류가 발생할 수 있습니다. 반드시 예측시에는 학습 데이터에서 인코딩 변환된 레이블 값이 들어와야 합니다.

감사합니다.