• 카테고리

    질문 & 답변
  • 세부 분야

    자격증 (데이터 사이언스)

  • 해결 여부

    해결됨

인코딩 에러

23.12.01 20:30 작성 조회수 112

0

인코딩할때 범주형 변수의 train 과 test 고유값의 수가

train < test

train != test

위의 경우일 때 인코딩을 진행하면 무조건 에러가 발생하나요?

 

고유값의 수가 일치하는지 확인하지 않고 바로 인코딩을 진행하려고 하는데

진행하다가 에러가 발생하면 컨캣을 진행하려고 합니다.

 

object 컬럼이 4개이면 4개다 고유값의 수를 확인해야하는거죠??

set () - set() 이런식으로 빼서 컬럼마다 확인해야하는 방법밖에 없는 걸까요?

 

답변 1

답변을 작성해보세요.

0

train < test

train != test

위의 경우일 때 인코딩을 진행하면 무조건 에러가 발생하나요?

크다 작다 관계가 아니라 집합의 관계로 봐야해요 어디서 어디를 포함하고 있는지가 중요해요.
"무조건"이란 말은 적용하기 어렵습니다. 에러가 난다면 합쳐서 진행해주세요!

object 컬럼이 4개이면 4개다 고유값의 수를 확인해야하는거죠??

네 안전한 방법입니다.

set () - set() 이런식으로 빼서 컬럼마다 확인해야하는 방법밖에 없는 걸까요?

아니요 방법은 많습니다. 예를 들어 value_counts()방법으로 확인해도 됩니다.

컬럼마다 확인하는 것이 어려우면 반복문을 사용해주세요!