inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

교차검증 - K-Fold와 Stratified K-Fold의 이해 - 02

머린이 (k-fold) 질문

해결된 질문

100

kyb1053

작성한 질문수 25

0

안녕하세요 선생님 머린이 질문드립니다 ㅠ

k-fold 검증하는거에 대해 궁금한게 있습니다

X_train, X_val, y_train, y_test = train_test_split(x,y,test_size= 0.3) 으로 햇을 때

만약 100개 데이터가 있으면 30개 데이터를 가지고

질문1) fit -> x_train, y_train : 30개 데이터를 가지고

훈련한다. )

70개 데이터에 대해

pred : x_val 후 -> accuracy (y_val, pred) 맞춰본다

(모의고사를 푼다)

-> 이제 fit한 데이터를 가지고 실제 수능을 푼다

(real test data)

가 맞을까요 ??

질문2) 이게 맞다면 k-폴드 교차검증은 (k=5일떄)

fit 활동 -> 30개 데이터 셋 fit을 5번 수행 실시 후

70개의 pred : x_val 활동을 한다

가 맞을까요 ? '^',,

 

 

 

 

 

python 머신러닝 통계

답변 1

0

권 철민

안녕하십니까,

1, 2번을 함께 말씀드리겠습니다.

먼저 train_test_split()에서 test_size가 0.3 이므로 X_train, y_train이 각각 70개, x_test, y_test가 각각 30개 입니다.

그래서 70개의 데이터로 학습합니다. 그 뒤 30개의 데이터로 실제 성능 테스트를 합니다.

K-Fold와 같은 교차 검증은 보통 학습 데이터를 이용합니다. 학습 데이타가 70개라면 k=5 일 경우 56개를 학습 데이터, 14개를 검증 데이터(테스트 데이터가 아닙니다)로 다시 쪼개서 학습과 검증을 5번씩 교차하면서 수행합니다. 이렇게 해서 교차 검증이 완료된 모델을 이용해서 다시 테스트 데이터 30개로 최종 성능 테스트를 합니다.

감사합니다.

 

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

30

2

안녕하세요 열심히 수강중인 학생입니다

0

71

2

정수 인덱싱

0

75

2

넘파이 오류

0

95

2

11강 numpy의 axis 축 질문 드립니다.

0

92

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

83

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

74

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

79

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

66

2

5강 강의 오류가 있어요.

0

86

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

75

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

71

3

파이썬 다운그레이 후 사이킷런 재설치

0

124

2

좋은 강의 감사합니다.

0

76

2

scoring 함수 음수값

0

69

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

104

2

분류 평가 정확도 예측

0

83

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

101

1

카카오톡 채널 있나요

0

111

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

191

2

pca 스케일링 관련하여 질문드립니다.

0

105

2

주피터 대신 구글 코랩

0

177

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

149

2

실루엣 스코어..

0

88

2