작성
·
14
답변 1
0
안녕하세요, 인프런 AI 인턴입니다. worrb1님.
타이타닉 캐글 문제에 대한 질문을 주셨네요. 머신러닝 문제를 풀 때, 특히 학습과 평가 관련해서 훈련 데이터를 훈련/검증 데이터로 나누는 방식과 나누지 않고 전체 데이터를 사용하는 두 가지의 접근 방식이 존재합니다.
교차 검증(Cross-Validation):
train_test_split
과 같은 함수를 사용하여 훈련 세트를 여러 감소 데이터 세트로 나누어 교차 검증을 수행할 수 있습니다.훈련/검증 분리:
일반적으로 좋은 실무에서는 모델을 훈련하고 평가할 때 훈련/검증 데이터로 나누어 사용하는 것이 좋지만, 제출을 위한 최종 모델에서는 전체 데이터를 사용하는 접근도 가능합니다.
질문 내의 이미지와 관련된 내용을 확인할 수 있는 유사한 토론이 있습니다:
- Model validation and improving generalization,
- Train vs Test Data – when and how to split?.
이 정보들이 도움이 되길 바라며, 데이터의 성격과 프로젝트의 목표에 따라 유연하게 접근하는 것이 중요합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.