inflearn logo
강의

講義

知識共有

ビッグデータ分析記事試験実技(Python)

10強。練習問題1(分類)-前処理

데이터셋 분리와 관련하여 질문이 있습니다.

446

Leo

投稿した質問数 1

0

안녕하세요. 빅분기 실기 준비 중인 수강생입니다.

먼저 감사하다는 말씀 드립니다. 많은 도움이 되고 있습니다.

수강 중에 궁금한 사항이 있어 질문 드립니다.

10강. 연습문제 풀이에서 먼저 X_train, X_test 데이터셋으로 분리한 후 전처리 과정을 두 데이터셋에 동일하게 수행하는 데, 전처리 과정을 모두 마친 후에 분리하는 것과 어떤 차이가 있는 지 궁금합니다.

감사합니다.

bigdata python

回答 1

0

dee

안녕하세요.

데이터가 많을 때는 큰 문제가 안됩니다.

다만, 데이터가 부족할 경우 훈련용 데이터에만 있는 속성으로

학습하여 예측을 할 경우 오류가 발생합니다.

예를 들면 훈련용 데이터의 변수가 옷의 색깔(빨강, 노랑)로 학습한 후

테스트 데이터 예측시 테스트 데이터의 변수(빨강, 노랑, 파랑)가 일 경우

기존에 없었던 속성이 있으므로 에러가 발생합니다.

이상입니다.

구름IDE 서비스 종료 이후 학습환경

0

122

1

10강 연습문제

0

166

1

VotingClassifier Hard 사용

0

111

1

구름IDE 실행 도움 요청

0

162

1

질문입니다 RandomForestClassifier

0

170

1

질문!

0

340

1

데이터 더미화 에러발생 질문.

0

317

1

많은 컬럼과 많은 결측치를 가지는 데이터

0

201

1

Dataset은 어디서 받을 수 있나요?

0

395

1

mpg 데이터셋 위치

0

339

1

교육영상 4강. 작업유형1-문제(1)에 대한 코드는 어디서 받을 수 있나요?

0

376

1

단순평균(1집단)T-test 1번 풀이

0

480

2

강의자료 문의

1

549

1

구름IDE 실행불가문제 ㅠㅠ

0

808

2

제7강 작업유형2-데이터 전처리: LabelEncoder 문법

0

443

1

5강 작업유형1-문제 2 질문입니다

0

407

1

7강 코드 질문드립니다

0

414

1

14강 실전 문제 카테고리 항목문의

0

397

1

작업2유형 문의

0

464

1

5강의 작업형1-2문제 오류

0

460

1

구름 IDE

0

712

2

[공지] 데이터 전처리 관련 오류 수정

4

546

1

라벨인코더 관련 문의드립니다!

0

506

2

분류 예측에서 결과값의 구체적 내용을 확인할수 있는지요?

0

401

2