• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

데이터셋 분리와 관련하여 질문이 있습니다.

22.11.22 18:05 작성 조회수 239

0

안녕하세요. 빅분기 실기 준비 중인 수강생입니다.

먼저 감사하다는 말씀 드립니다. 많은 도움이 되고 있습니다.

수강 중에 궁금한 사항이 있어 질문 드립니다.

10강. 연습문제 풀이에서 먼저 X_train, X_test 데이터셋으로 분리한 후 전처리 과정을 두 데이터셋에 동일하게 수행하는 데, 전처리 과정을 모두 마친 후에 분리하는 것과 어떤 차이가 있는 지 궁금합니다.

감사합니다.

답변 1

답변을 작성해보세요.

0

안녕하세요.

데이터가 많을 때는 큰 문제가 안됩니다.

다만, 데이터가 부족할 경우 훈련용 데이터에만 있는 속성으로

학습하여 예측을 할 경우 오류가 발생합니다.

예를 들면 훈련용 데이터의 변수가 옷의 색깔(빨강, 노랑)로 학습한 후

테스트 데이터 예측시 테스트 데이터의 변수(빨강, 노랑, 파랑)가 일 경우

기존에 없었던 속성이 있으므로 에러가 발생합니다.

이상입니다.