문제질문

Question

세 가지 질문이 있습니다. 1. 시험문제가 [2개의 경우 즉, 0 과 1로 되어있는 factor의 '1'일경우를 예측]하는 형태로 출제될 것으로 보시나요? 2. p3의 auc결과보다 p1이나 p2가 더 좋은경우 그걸 쓰면 되는걸까요? 이게아니라면, 결론적으로 p3를 사용할건데 평가를 왜하는건지 궁금합니다. 3. 모델을 만들때, 처음엔 train데이터로 만들고 후에 df로 다시 만드는데, 어짜피 우리가 쓸 모델이 glm과rpart를 합쳐서 쓸거라면 애초에 처음부터 평가도 없이 df로 모델을 만들어도 되지않나 싶은데,, 혹시, 제가 잘못이해해서 그런걸까요?

companionclub · Answer

안녕하세요. 1. 네. 반드시 그럴 것 같습니다. 지난번에 두개를 바꿔서 출제했다가 다시 원래대로 정정하는 해프닝이 있었습니다. 무조건 뒷쪽을 예측하게 할 것으로 보입니다. 만약 그렇지 않다면 강제로 한번 치환이 필요해보입니다. 2. p3보다 더 나은 성능을 가지는 p1,p2가 나올 수 있습니다. 그럴가능성은 적지만 성능의 차이가 너무 확연하다면 p1이나 p2를 사용하면되지만 가능성이 희박합니다. p1,p2가 p3보다 약간 더 높을 수는 있습니다. 그럼에도 불구하고 testset에 적용할 때는 일반화성능 확보를 위해서 결과를 취합하는 편이 낫다고 판단됩니다. 어쩌면 과적합일 수도 있기 때문입니다. 모델을 굳이 평가하는 이유는 우리가 만든 모델의 성능이 궁금해서입니다. 굳이 안해도 무방하긴 합니다. 3. 위의 설명과 동일합니다. 사실 굳이 나눌 필요없이 그냥 df로 모델 만들고 test넣으면 끝입니다. 다만 중간에 혹시나 모델이 잘못만들어지지는 않았나하는 중간평가정도로 보시면됩니다. 이것은 제가 제시한 방법과 무관하게 어떤 방법을 사용하시던 중간에 한번 하는 걸 권장드립니다. 시중에 책이나 강의에서도 그럴 것으로 보입니다.