예상문제와 다른 형식의 데이터가 주어질 때

Question

예상문제와 같이 데이터가 X_train, y_train, X_test 로 세분화된 경우에는

merge 하여 알려주신대로 [model1 ... p3] 작업까지 2번 반복하는 것으로 이해완료하였는데요.

혹시 이번 2회 기출문제와 같이 단순 'Train.csv' 데이터로만 제시되는 경우

이 데이터를 가지고 train/test로 나누고 [model1 ... p3] 작업 1번으로 (반복없이) 완료하는 것이 맞나요?

아니면 나눈 train을 다시 한번 더 나누어, 항상 이 과정을 2번 반복해야 하나요?

미리 답변 감사드려요. 초보인데 주위에 여쭤볼 사람도 없어서 ㅠㅠ 선생님 답글만 기다립니다 ㅠ_ㅠ

Answer

안녕하세요.

그럴리가 거의 없어보이지만 만약 말씀하신대로 나오게 된다면 문제에 대한 설명이 복잡해질 것 같습니다.

왜 그럴리가 없어보이냐면 해당하는 데이터셋의 형태가 일반적으로 파이썬에서 데이터를 다루는 형태이기

때문입니다. R만 사용하는 사람들에게는 좀 이질적일 수도 있지만 파이썬을 사용하는 사람들에게는

세분화해서 주는게 굉장히 일반적이기 때문입니다.

만약에 데이터셋 하나(Train)만 주어질 경우에는 복잡해집니다.

모델평가가 어려우니 아마도 자유롭게 데이터를 나누고 스코어를 제출하라는 식으로 나오지 않을까요?

고민해본적이 없어서 상상도 어렵지만 아마 그런 고민을 하실 정도의 실력이지만 문제없이

대응하실 수 있을 것 같습니다.