best_score_값과 pred값이 다른 이유
안녕하세요, 구글코랩에서 GridsearchCV를 실행하다가 궁금한 점이 생겨 질문합니다.
grid_dtree.best_score_ 를 출력하면 정확도가0.975가 나오고 pred=grid_dtree.predict(X_test)에서 pred를 출력하면 0.9667이 나옵니다.
refit=True옵션이 최고성능을 내는 파라미터로 재학습하는 것이니 grid_dtree를 테스트 데이터셋으로 학습 및 예측한 pred와 best_score_ 속성 값은 동일해야 하는 것 아닌지 궁금합니다.
두 값이 다른 이유는 K폴드를 실행하는 과정에서 학습데이터셋과 테스트데이터셋의 구간이 강의에서 나온 구간과는 약간 상이해서 그런듯합니다. 이것도 맞는지 알려주시면 감사하겠습니다!
답변 6
3
소스코드에서 X_train, X_test, y_train, y_test= train_test_split(..., test_size=0.2)로 학습 데이터 세트(80%)와 테스트 데이트 세트(20%)가 분리되었습니다.
grid_dtree = GridSearch(... cv=3)
grid_dtree.fit(X_train, y_train)으로 학습 데이터 세트가 입력되면 GridSearchCV는 주어진 X_train, y_train으로 3개 Fold로 다시 학습/Valid 를 나눕니다. 즉 iris 데이터의 80%인 X_train을 다시 분할해서 학습(X_train의 2/3)과 Valid(X_train의 1/3)으로 나누면서 cross validation으로 학습과 검증을 수행하게 됩니다. 즉 X_train을 쪼개면서 학습하고 predict()한 최고 정확도를 grid_dtree.best_score_ 가 가지는 것입니다.
하지만 이는 테스트 데이터 X_test로 predict() 된게 아닙니다. 그렇기 때문에 X_test 로 predict()된 결과와 다릅니다.
0
강사님, iris데이터셋의 평균값하고 분산값을 구해보았는데 책이랑 미세하게 다른걸 보니 구글코랩의 iris 데이터셋이 약간 다른것 같습니다..! 이 부분이 best_score_값과 pred값이 다른 이유에 영향을 미칠 수도 있는건가요?
0
안녕하십니까,
grid_dtree.bet_score_는 validation 데이터 세트로 평가한 결과 입니다. 만일 validation 데이터 세트가 X_test 였다면 두개의 결과는 동일해야 할것입니다.
하지만 일반적으로는 Stratified K Fold로 되어 있으니, X_test를 validation으로 사용하지 않으셨을 것으라고 생각됩니다. 그래서 결과가 다를 것 같습니다. 만약 아니라면 다시 답변 부탁드립니다.(전체 소스 코드와 함께 부탁드립니다)
감사합니다.
안녕하세요 열심히 수강중인 학생입니다
0
58
2
정수 인덱싱
0
65
2
넘파이 오류
0
83
2
11강 numpy의 axis 축 질문 드립니다.
0
84
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
76
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
68
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
73
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
62
2
5강 강의 오류가 있어요.
0
81
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
71
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
67
3
파이썬 다운그레이 후 사이킷런 재설치
0
115
2
좋은 강의 감사합니다.
0
70
2
scoring 함수 음수값
0
66
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
98
2
분류 평가 정확도 예측
0
75
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
96
1
카카오톡 채널 있나요
0
104
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
187
2
pca 스케일링 관련하여 질문드립니다.
0
100
2
주피터 대신 구글 코랩
0
169
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
145
2
실루엣 스코어..
0
82
2
float64 null 값 처리 방법
0
99
2






이처럼 정확도가 다르게 나오는데 이유를 잘못찾겠습니다.