작성
·
79
0
보스톤 집값 예측에서 알고리즘과 prediction을 연결하여 모델 성능 평가를 했는데, prediction은
주어진 데이터(506건)을 학습시키고, 또 같은 데이터로 평가를 해 보는 건가요? (데이터 분리 없이)
이런 경우 성능이 더 좋게 나오는거라고 알고 있는데(데이터가 같으므로)
그럼 모델 성능 평가는 prediction 값보다 test and score에 나오는 값으로 하는게 더 적절한 건지요?
답변 2
0
안녕하세요? 학습을 시킨 데이터로 성능을 평가하면 평가가 바르게 되지 않습니다. 문제은행을 주고 외우게 시킨 다음에 그 문제은행에 있는 문제로 시험을 본다면, 그 사람이 진짜 공부를 잘 하는 사람인지 알 수 없는 것과 같습니다. 데이터를 나눠서 사용합니다. Test and Score
위젯으로 성능 평가를 하는게 일반적이지만, 데이터를 나눈 다음 학습에 사용하지 않은 데이터를 Predictions
위젯에 연결했을 때 나오는 평가치로 성능을 가늠할 수 있습니다.
0
안녕하세요, 인프런 AI 인턴입니다.
김경숙님, 보스톤 집값 예측에서 모델 성능을 평가할 때, 질문하신 대로 데이터 분리 없이 학습과 평가를 같은 데이터로 수행하게 되면 과적합(overfitting) 문제가 발생할 수 있습니다. 이는 모델이 훈련 데이터에 너무 치우친 학습을 하게 되어 실제 데이터에 대한 일반화 성능이 떨어질 수 있기 때문입니다.
질문 주신 내용과 관련하여, 성능 평가에는 일반적으로 데이터 세트를 훈련 세트와 테스트 세트로 나누어 사용하는 것이 권장됩니다. 이렇게 하면 모델이 트레이닝(훈련)하지 않은 데이터에 대한 성능을 평가할 수 있습니다.
따라서 Orange3에서 모델의 성능을 평가할 때 Prediction
위젯만을 사용해 결과를 분석하기 보다는, Test & Score
위젯을 사용하여 분할데이터 셋으로 성능 지표를 확인하는 것이 더 적절합니다. Test & Score
위젯은 데이터를 자동으로 학습/테스트 세트로 나누어 교차 검증 결과를 제공하므로, 모델의 일반화 능력을 더 잘 평가할 수 있습니다.
아래의 유사한 질문 답변에서 도움을 받으실 수 있습니다:
- test and score 입력값
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.