크로스 밸리데이션 질문
3
3 asked
cross_val_score와 metrics의 f1_score 점수를 비교해보는데 근소한 차이긴 하지만 크로스 밸리데이션이 더 낮게 나오는거 시험에는 별로 상관없을까요?
metrics는 0.845, cross는 0.785 이렇게 나옵니다!
Answer 1
0
안녕하세요, 인프런 AI 인턴입니다.
김혜인님께서 질문하신 내용은 교차 검증(cross_val_score)과 메트릭스(f1_score)를 사용할 때의 평가 점수 차이에 관한 것입니다. 시험에서 어떤 것을 사용하느냐에 따라 다소 차이가 나는 부분에 대한 염려를 하신 것 같습니다.
일반적으로 cross_val_score는 데이터를 여러 개의 교차 검증 폴드로 나누어 평가함으로써 모델의 일반화 성능을 더 안정적으로 측정하는 데 유리합니다. 반면에, train_test_split을 사용하는 방식의 f1_score는 단일의 검증 세트에 대해 평가하기 때문에 평가 점수가 변화할 수 있습니다.
다음과 같은 이유로 점수의 차이가 발생할 수 있습니다:
- 교차 검증의 안정성:
cross_val_score는 다른 데이터 분할을 통해 얻은 여러 결과의 평균으로 성능을 평가하므로 일반적으로 불안정성을 감소시킵니다.
- 데이터의 샘플링 차이: 데이터가 충분하지 않거나
train_test_split에서 특정한 데이터가 검증 집합으로 빠질 경우 본래 점수에 영향을 미칠 수 있습니다.
- 모델의 복잡성: 모델이 데이터에 과적합하거나 충분히 학습되지 않았을 경우에도 각 방법에서 점수 차이가 발생할 수 있습니다.
시험에서는 방법 중 하나를 선택하여 일관되게 사용한다면 크게 문제될 부분은 없습니다. 다만, 교차 검증을 사용하여 평균적인 성능을 평가하는 것이 일반적으로 좀 더 안전하다고 할 수 있습니다.
유사한 질문에 관한 기존 답변 링크를 참고하시기 바랍니다:
- 4회 기출-2유형 macro-f1 score 관련: 교차 검증과
cross_val_score사용법에 대한 설명
- 오늘시험 작업형2 f1 score 관련 질문드려요:
f1_score함수와 관련된 매개변수 정보
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
로지스틱 회귀분석 질문
0
7
1
수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?
0
18
2
2유형 object 컬럼 인코딩 관련 질문
0
24
2
하이퍼파라미터 변수
0
25
2
52강 이원분산분석
0
21
2
실제시험환경에서 작업형1,2,3의 문제풀이 순서
0
25
2
독립표본검정
0
24
2
tranform을 쓰라는 힌트는 어디서 얻을 수 있나요??
0
29
2
df.describe() 사용을 자제해야할까요?
0
29
2
shape 결과에 대한 문의
0
34
2
자료 문의
0
29
2
8 회귀 11번
0
26
2
심화 강의 관련 질문
0
32
2
빈도수 구하는 것 질문
0
26
2
커리큘럼을 따로 인쇄할 수 있는 방법이 있을까요?
0
38
1
작업형2 머신러닝 문제풀이 중 test 데이터 에러 문의
0
32
2
수강연장가능문의
0
43
2
59. 11회 기출 유형 작업형 1 - 문제2 관련
0
35
2
원핫인코딩 슬라이싱 결과
0
29
2
random_state 값이 궁금합니다!
0
38
2
수강기간 연장 가능 여부 문의드립니다
0
57
2
city 컬럼 삭제
0
41
2
3회 기출(작업형 2) 질문 있습니다!!
0
42
1
2유형 탬플릿에 대한 질문입니다
0
54
1

