inflearn logo
강의

Khóa học

Chia sẻ kiến thức

[Làm gì sau giờ làm] Chứng chỉ Phân tích Dữ liệu lớn - Kỳ thi thực hành (Dạng bài tập 1, 2, 3)

Đề thi mẫu kỳ 11 (Dạng thực hành 2)

크로스 밸리데이션 질문

Đã giải quyết

13

109hyein2499

3 câu hỏi đã được viết

0

cross_val_score와 metrics의 f1_score 점수를 비교해보는데 근소한 차이긴 하지만 크로스 밸리데이션이 더 낮게 나오는거 시험에는 별로 상관없을까요?

metrics는 0.845, cross는 0.785 이렇게 나옵니다!

python 머신러닝 빅데이터 pandas 빅데이터분석기사

Câu trả lời 2

0

roadmap

cross_val_score을 사용할 수 있다면 크로스 밸리데이션으로 서로 다른 모델을 비교하는 것이 더 정확합니다!

cross_val_score에서 f1과 metrics의 f1을 비교하는 것은 무의미해요! metrics의 f1은 운이 좋아서 그렇게 나올 수 있지만 cross_val_score은 평균을 낸 것이라 정확합니다.

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다.

김혜인님께서 질문하신 내용은 교차 검증(cross_val_score)과 메트릭스(f1_score)를 사용할 때의 평가 점수 차이에 관한 것입니다. 시험에서 어떤 것을 사용하느냐에 따라 다소 차이가 나는 부분에 대한 염려를 하신 것 같습니다.

일반적으로 cross_val_score는 데이터를 여러 개의 교차 검증 폴드로 나누어 평가함으로써 모델의 일반화 성능을 더 안정적으로 측정하는 데 유리합니다. 반면에, train_test_split을 사용하는 방식의 f1_score는 단일의 검증 세트에 대해 평가하기 때문에 평가 점수가 변화할 수 있습니다.

다음과 같은 이유로 점수의 차이가 발생할 수 있습니다:

  1. 교차 검증의 안정성: cross_val_score는 다른 데이터 분할을 통해 얻은 여러 결과의 평균으로 성능을 평가하므로 일반적으로 불안정성을 감소시킵니다.
  2. 데이터의 샘플링 차이: 데이터가 충분하지 않거나 train_test_split에서 특정한 데이터가 검증 집합으로 빠질 경우 본래 점수에 영향을 미칠 수 있습니다.
  3. 모델의 복잡성: 모델이 데이터에 과적합하거나 충분히 학습되지 않았을 경우에도 각 방법에서 점수 차이가 발생할 수 있습니다.

시험에서는 방법 중 하나를 선택하여 일관되게 사용한다면 크게 문제될 부분은 없습니다. 다만, 교차 검증을 사용하여 평균적인 성능을 평가하는 것이 일반적으로 좀 더 안전하다고 할 수 있습니다.

유사한 질문에 관한 기존 답변 링크를 참고하시기 바랍니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

작업형1_연습문제 7번 관련입니다.

0

1

1

데이터 프레임 슬라이싱 혹은 데이터 선택하기가 어렵습니다.

0

3

1

로지스틱 회귀분석 질문

0

13

2

수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?

0

21

2

2유형 object 컬럼 인코딩 관련 질문

0

29

2

하이퍼파라미터 변수

0

27

2

52강 이원분산분석

0

24

2

실제시험환경에서 작업형1,2,3의 문제풀이 순서

0

28

2

독립표본검정

0

25

2

tranform을 쓰라는 힌트는 어디서 얻을 수 있나요??

0

35

2

df.describe() 사용을 자제해야할까요?

0

31

2

shape 결과에 대한 문의

0

37

2

자료 문의

0

30

2

8 회귀 11번

0

26

2

심화 강의 관련 질문

0

35

2

빈도수 구하는 것 질문

0

26

2

커리큘럼을 따로 인쇄할 수 있는 방법이 있을까요?

0

38

1

작업형2 머신러닝 문제풀이 중 test 데이터 에러 문의

0

33

2

수강연장가능문의

0

44

2

59. 11회 기출 유형 작업형 1 - 문제2 관련

0

37

2

원핫인코딩 슬라이싱 결과

0

32

2

random_state 값이 궁금합니다!

0

38

2

수강기간 연장 가능 여부 문의드립니다

0

58

2

city 컬럼 삭제

0

42

2