이해가 가지 않는 것
<모델&평가>에서 fit(학습)을 시킬때는 왜 X_tr,y_tr을 넣고 예측을 할때는 왜 X_val를 넣나요 ?
그냥 아무거나 넣어도 되나요 ?
#rf
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=2025)
rf.fit(X_tr,y_tr)
pred = rf.predict(X_val)
답변 2
0
train 데이터를 2개로 쪼갰어요
X_tr(정답: y_tr)과 X_val(정답:y_val)이 있습니다.
훈련용으로는 X_tr 데이터를 사용했고
검증용으로는 X_val 데이터를 사용했어요
그리고 나서 평가지표를 확인하고
최종적으로는 test데이터를 예측합니다.
섹션 20에 79. 기출(작업형2) 한 가지 방법으로 풀기
영상으로 학습하셔도 좋습니다.
0
안녕하세요, 인프런 AI 인턴입니다. 김라의님.
모델을 학습하고 예측하는 과정에서 주어진 코드의 의도와 데이터를 분리하는 이유에 대해 궁금하신 것 같습니다. 기본적으로, 학습 데이터를 분리하는 목적과 그 사용 방법을 이해하면 해결이 될 것 같습니다.
훈련 데이터 (
X_tr,y_tr): 모델을 학습시키는 데 사용됩니다. 이 데이터는 모델이 패턴을 학습하고, 어떻게 입력 변수와 출력 변수가 연관되어 있는지를 이해하는 데 도움을 줍니다.검증 데이터 (
X_val): 학습이 완료된 모델의 성능을 테스트하는 데 사용됩니다. 이는 과적합을 방지하고, 모델이 실제로 얼마나 잘 일반화되는지를 평가하는 데 중요합니다. 검증 데이터는 학습 과정에서 사용되지 않았기 때문에 모델의 진정한 예측 능력을 평가할 수 있습니다.
따라서 다음과 같은 용도로 사용됩니다:
rf.fit(X_tr, y_tr): 모델을 훈련 데이터로 학습시키는 과정입니다.
pred = rf.predict(X_val): 검증 데이터를 사용하여 모델의 성능을 평가합니다. 예측 값pred는 검증 데이터에 대한 모델의 출력입니다.
관련 내용에 대해 더 자세히 알고 싶으시면 아래의 유사한 질문 및 답변을 참고하시면 도움이 될 것입니다:
- 모델 학습 및 평가지표 설정
- 작업형2 모형 fit 할 때
모델을 테스트하는 단계에서는 X_val 데이터를 통해 모델의 성능을 확인하는 것이 정석적인 방법이며, 따라서 아무 데이터를 넣어도 되는 것은 아닙니다. 이 과정에서 과적합을 피하고 모델의 일반화 능력을 높이는 것이 핵심입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
기출 마무리 방법
0
6
1
빅이시 작업형2 기초 - 케이스 1~3 관련 문의
0
7
1
데이터프레임 슬라이싱 인덱싱 질문2
0
11
1
단일표본검정, 샤피로검정, 윌콕슨검정
0
20
2
강의자료 다운로드 여부
0
22
1
문제에 첨부된 예시와 실제 출력된 샘플 비교
0
17
2
원핫 인코딩 관련
0
26
2
타겟 분리
0
22
2
Id 삭제
0
25
2
roc_auc_score 질문: 작업형2 모의문제3 09분 48초
0
25
2
원핫인코딩 코드 질문
0
24
2
map 함수 사용 필수적인가요
0
31
2
수강 기한 연장 문의드립니다.
0
39
2
34강 평가지표
0
32
2
103강 작업2형 전처리(레이블인코딩 부분) 오류
0
25
3
작업형1_section14 문의
0
20
2
작업형1_연습문제 7번 관련입니다.
0
24
2
데이터 프레임 슬라이싱 혹은 데이터 선택하기가 어렵습니다.
0
23
2
크로스 밸리데이션 질문
0
27
2
로지스틱 회귀분석 질문
0
28
2
수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?
0
31
2
2유형 object 컬럼 인코딩 관련 질문
0
46
2
하이퍼파라미터 변수
0
36
2
52강 이원분산분석
0
33
2





