training set, test set 나누는 문제

Question

안녕하세요. 지난번 답변에 감사드립니다. 이번에는 trainning set과 test set을 나누는 것에 대한 질문입니다. 작업형 2유형 문제의 예시에는 이미 train데이터(X_train, y_train)와 test(X_test)데이터가 나누어져 있습니다. 그리고 train데이터를 이용하여 모형을 만들어 test데이터에 적용하여 분류를 하라고 되어 있습니다. 이경우에도 train set을 학습용과 검증용으로 나누어 모델링하고 모델별 성능을 검증해야 하는지요? 강의내용에는 glm과 rpart를 이용한 모델의 결과를 평균하는 것으로 정해져 있기에, 굳이 train데이터의 70퍼센트를 학습용으로 뽑고 나머지 30%를 검증용으로 나누어 학습모델(glm+rpart)의 성능검증을 하는 이유를 잘 모르겠습니다. 다른 모델들은 선택에서 배제되어 있기에 이와 같은 검증이 필요한지 의문입니다.

companionclub · Answer

안녕하세요. 말씀하신 부분을 이해했습니다. 제가 '출제예상'이라고 적힌 메모장에서 중간에 데이터 분할을 한 이유는 단순히 auc함수를 통해 모델 평가를 보여드리기 위해서 였습니다. 문의 주신대로 만약에 모델 평가를 굳이 보여줘야하거나 볼 필요가 없으면 데이터 분할은 불필요합니다. 제가 제시한 방법은 파라미터 튜닝등이 불필요해서 굳이 데이터분할을 하지않아도 됩니다. 그런데, 시험을 치르시다보면 혹시나 해서 모델 평가를 한번 해보시게 됩니다. 혹시나 코드를 잘못짜거나해서 너무 터무니없는 모델이 나올 수 도 있으니깐요. 결론을 말씀드리면 문의하신 의견이 맞구요. 첨언드리면 제가 드린 방법은 모델의 튜닝이 필요없이 1분내에 코드가 돌아가게 하면서 어느정도의 성능을 보장하는 방법이기 때문에 문제를 푸는 관점에서는 분할할 필요는 없습니다.