강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của nyohnav0030
nyohnav0030

câu hỏi đã được viết

Kỳ thi thực hành kỹ thuật viên phân tích dữ liệu lớn (Python)

Bài học 10. Bài tập 1 (Phân loại) – Tiền xử lý

데이터셋 분리와 관련하여 질문이 있습니다.

Viết

·

434

0

안녕하세요. 빅분기 실기 준비 중인 수강생입니다.

먼저 감사하다는 말씀 드립니다. 많은 도움이 되고 있습니다.

수강 중에 궁금한 사항이 있어 질문 드립니다.

10강. 연습문제 풀이에서 먼저 X_train, X_test 데이터셋으로 분리한 후 전처리 과정을 두 데이터셋에 동일하게 수행하는 데, 전처리 과정을 모두 마친 후에 분리하는 것과 어떤 차이가 있는 지 궁금합니다.

감사합니다.

bigdatapython

Câu trả lời 1

0

dee님의 프로필 이미지
dee
Người chia sẻ kiến thức

안녕하세요.

데이터가 많을 때는 큰 문제가 안됩니다.

다만, 데이터가 부족할 경우 훈련용 데이터에만 있는 속성으로

학습하여 예측을 할 경우 오류가 발생합니다.

예를 들면 훈련용 데이터의 변수가 옷의 색깔(빨강, 노랑)로 학습한 후

테스트 데이터 예측시 테스트 데이터의 변수(빨강, 노랑, 파랑)가 일 경우

기존에 없었던 속성이 있으므로 에러가 발생합니다.

이상입니다.

Hình ảnh hồ sơ của nyohnav0030
nyohnav0030

câu hỏi đã được viết

Đặt câu hỏi