inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]

머신러닝 적용을 위한 Feature Engineering

test / train 데이터 나누기

93

Lisa Lee

작성한 질문수 1

0


안녕하세요, 선생님.

좋은 강의 항상 감사히 잘 듣고 있습니다.

train 데이터와 test 데이터를 미리 파일로 나누어 작업하시는 것을 보았는데, 실제 회사에서도 이렇게 작업하는지 궁금합니다.
보통 어느 단계에서 train과 test 데이터를 나누는 것이 맞는지도 알고 싶습니다.

예를 들어,
결측값이나 이상치 처리, NaN 값을 처리한 후에 데이터를 나누는 것이 맞는지,
아니면 처음부터 비율(예: 8:2)로 나누고 시작하는 것이 맞는지 궁금합니다.

답변해 주실 수 있을까요?

머신러닝

답변 1

0

잔재미코딩 DaveLee

안녕하세요.

회사에서는 원본 데이터를 보통은 전처리(결측값, 이상치등등) 전에 바로 train 과 test 데이터로 나누는 경우도 많습니다. 전처리를 먼저 하고 나누면 test 정보를 미리 보게 돼 성능이 부풀어질 수 있기 때문입니다. 다만 전처리 이후 (전처리를 어떻게 하느냐도 실제 만들고자하는 모델의 입력이 어떻게 될 것이냐에 따라 다를 수 있고요) train/test 데이터로 나눌 수도 있어요. 이는 전적으로 실제 만들고자 하는 모델에 따라 다를 것 같아요.

 

감사합니다.

자료 공유 질문

0

52

1

Ascii 에러 관련하여 질문드립니다

0

73

1

고차원 데이터 질문

0

46

0

세션4 범주형 데이터 분석 패턴 강의 질문

0

197

2

pandas 2.2.2, xgboost 2.1.3 에러 해결 방법

0

209

1

sklearn v1.5.1

0

166

1

머신러닝 적용을 위한 Feature Engineering 작업1

0

174

2

missingno 대체

0

163

1

scikit-learn 1.5.1 matplotlib 3.9.2

0

127

1

환불문의

0

259

1

자료공유를 받으려고 하는데 에러가 납니다.

0

154

1

iplot에서 항상 에러나는 분 안계신가용?

0

219

1

사망 여부 영향 가능성

0

139

1

섹션4_인코딩 이해하고 적용해보기(원핫인코딩) 질문

0

184

1

df.corr(numeric_only=True).iplot() 에러 해결 어떻게 해야되나요?

0

274

1

주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문

0

242

1

3강 강의 자료 코드 관련 질문입니다

1

334

1

맥 사용자 mkdir .kaggle 했는데 파일이 안만들어집니다.

0

410

1

Bayesian Optimization에서 optimizer.maximize()함수를 더이상 지원 안한다고 합니다.

0

873

2

Bayesian Optimization LightGBM 적용

0

451

2

하이퍼 파라미터 튜닝 기법 적용하기 실행값이 미묘하게 달라요.

1

336

1

중복된 코드 수정 요청 - 자전거 공유 문제 이해와 EDA3

0

211

1

강의 중 에러 질문

0

736

1

cross_val_score 에러

0

455

1