강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

Lisa Lee님의 프로필 이미지
Lisa Lee

작성한 질문수

[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]

머신러닝 적용을 위한 Feature Engineering

test / train 데이터 나누기

작성

·

37

0


안녕하세요, 선생님.

좋은 강의 항상 감사히 잘 듣고 있습니다.

train 데이터와 test 데이터를 미리 파일로 나누어 작업하시는 것을 보았는데, 실제 회사에서도 이렇게 작업하는지 궁금합니다.
보통 어느 단계에서 train과 test 데이터를 나누는 것이 맞는지도 알고 싶습니다.

예를 들어,
결측값이나 이상치 처리, NaN 값을 처리한 후에 데이터를 나누는 것이 맞는지,
아니면 처음부터 비율(예: 8:2)로 나누고 시작하는 것이 맞는지 궁금합니다.

답변해 주실 수 있을까요?

답변 1

0

안녕하세요.

회사에서는 원본 데이터를 보통은 전처리(결측값, 이상치등등) 전에 바로 train 과 test 데이터로 나누는 경우도 많습니다. 전처리를 먼저 하고 나누면 test 정보를 미리 보게 돼 성능이 부풀어질 수 있기 때문입니다. 다만 전처리 이후 (전처리를 어떻게 하느냐도 실제 만들고자하는 모델의 입력이 어떻게 될 것이냐에 따라 다를 수 있고요) train/test 데이터로 나눌 수도 있어요. 이는 전적으로 실제 만들고자 하는 모델에 따라 다를 것 같아요.

 

감사합니다.

Lisa Lee님의 프로필 이미지
Lisa Lee

작성한 질문수

질문하기