머린이 (k-fold) 질문
안녕하세요 선생님 머린이 질문드립니다 ㅠ
k-fold 검증하는거에 대해 궁금한게 있습니다
X_train, X_val, y_train, y_test = train_test_split(x,y,test_size= 0.3) 으로 햇을 때
만약 100개 데이터가 있으면 30개 데이터를 가지고
질문1) fit -> x_train, y_train : 30개 데이터를 가지고
훈련한다. )
70개 데이터에 대해
pred : x_val 후 -> accuracy (y_val, pred) 맞춰본다
(모의고사를 푼다)
-> 이제 fit한 데이터를 가지고 실제 수능을 푼다
(real test data)
가 맞을까요 ??
질문2) 이게 맞다면 k-폴드 교차검증은 (k=5일떄)
fit 활동 -> 30개 데이터 셋 fit을 5번 수행 실시 후
70개의 pred : x_val 활동을 한다
가 맞을까요 ? '^',,
답변 1
0
안녕하십니까,
1, 2번을 함께 말씀드리겠습니다.
먼저 train_test_split()에서 test_size가 0.3 이므로 X_train, y_train이 각각 70개, x_test, y_test가 각각 30개 입니다.
그래서 70개의 데이터로 학습합니다. 그 뒤 30개의 데이터로 실제 성능 테스트를 합니다.
K-Fold와 같은 교차 검증은 보통 학습 데이터를 이용합니다. 학습 데이타가 70개라면 k=5 일 경우 56개를 학습 데이터, 14개를 검증 데이터(테스트 데이터가 아닙니다)로 다시 쪼개서 학습과 검증을 5번씩 교차하면서 수행합니다. 이렇게 해서 교차 검증이 완료된 모델을 이용해서 다시 테스트 데이터 30개로 최종 성능 테스트를 합니다.
감사합니다.
모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.
0
30
2
안녕하세요 열심히 수강중인 학생입니다
0
71
2
정수 인덱싱
0
75
2
넘파이 오류
0
95
2
11강 numpy의 axis 축 질문 드립니다.
0
92
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
83
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
74
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
79
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
66
2
5강 강의 오류가 있어요.
0
86
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
75
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
71
3
파이썬 다운그레이 후 사이킷런 재설치
0
124
2
좋은 강의 감사합니다.
0
76
2
scoring 함수 음수값
0
69
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
104
2
분류 평가 정확도 예측
0
83
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
101
1
카카오톡 채널 있나요
0
111
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
191
2
pca 스케일링 관련하여 질문드립니다.
0
105
2
주피터 대신 구글 코랩
0
177
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
149
2
실루엣 스코어..
0
88
2





