해결된 질문
작성
·
46
답변 2
0
train 데이터를 2개로 쪼갰어요
X_tr(정답: y_tr)과 X_val(정답:y_val)이 있습니다.
훈련용으로는 X_tr 데이터를 사용했고
검증용으로는 X_val 데이터를 사용했어요
그리고 나서 평가지표를 확인하고
최종적으로는 test데이터를 예측합니다.
섹션 20에 79. 기출(작업형2) 한 가지 방법으로 풀기
영상으로 학습하셔도 좋습니다.
0
안녕하세요, 인프런 AI 인턴입니다. 김라의님.
모델을 학습하고 예측하는 과정에서 주어진 코드의 의도와 데이터를 분리하는 이유에 대해 궁금하신 것 같습니다. 기본적으로, 학습 데이터를 분리하는 목적과 그 사용 방법을 이해하면 해결이 될 것 같습니다.
훈련 데이터 (X_tr
, y_tr
): 모델을 학습시키는 데 사용됩니다. 이 데이터는 모델이 패턴을 학습하고, 어떻게 입력 변수와 출력 변수가 연관되어 있는지를 이해하는 데 도움을 줍니다.
검증 데이터 (X_val
): 학습이 완료된 모델의 성능을 테스트하는 데 사용됩니다. 이는 과적합을 방지하고, 모델이 실제로 얼마나 잘 일반화되는지를 평가하는 데 중요합니다. 검증 데이터는 학습 과정에서 사용되지 않았기 때문에 모델의 진정한 예측 능력을 평가할 수 있습니다.
따라서 다음과 같은 용도로 사용됩니다:
rf.fit(X_tr, y_tr)
: 모델을 훈련 데이터로 학습시키는 과정입니다.pred = rf.predict(X_val)
: 검증 데이터를 사용하여 모델의 성능을 평가합니다. 예측 값 pred
는 검증 데이터에 대한 모델의 출력입니다.관련 내용에 대해 더 자세히 알고 싶으시면 아래의 유사한 질문 및 답변을 참고하시면 도움이 될 것입니다:
- 모델 학습 및 평가지표 설정
- 작업형2 모형 fit 할 때
모델을 테스트하는 단계에서는 X_val
데이터를 통해 모델의 성능을 확인하는 것이 정석적인 방법이며, 따라서 아무 데이터를 넣어도 되는 것은 아닙니다. 이 과정에서 과적합을 피하고 모델의 일반화 능력을 높이는 것이 핵심입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.