강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

박재훈님의 프로필 이미지
박재훈

작성한 질문수

빅데이터분석기사 필기 올인원: 3주에 끝내는 완벽 대비

[onc2009]BDA0203 기출변형문제

데이터분할 - K-Fold 교차 검증 질문

작성

·

29

0

  1. K개 Fold를 지정해서, K-1개의 Fold로 모델을 학습하고, 1개의 Fold로 테스트를 진행

  2. 이것을 K번 반복한 결과를 평가 결과로 사용

Q)각 단계별로 학습 데이터가 달라져 새로운 모델 함수가 만들어 지는데, 최종적으로 어떤 모델을 선정해야 하는 걸까요?

제가 잘못 이해하고 있는지 문의드립니다!

 

답변 2

0

Masocampus님의 프로필 이미지
Masocampus
지식공유자

안녕하세요, 마소캠퍼스입니다.

 

K폴드 교차검증에서는 교차 검증 과정 속에서 일반적으로 적용 가능한 가장 좋은 성능이 좋은 알고리즘/파라미터 조합이 결정됩니다.

그 모델 및 학습률, 파라미터 등을 고정하여, 학습 데이터(fold)가 아닌 전체 데이터에 대해 최종 모델을 학습시킨 후 실제 배포 혹은 테스트를 진행한다 보시면 되겠습니다.

최종 모델이라 함은 즉, 어떤 특정한 형태가 정해졌다기 보다는 여러 번의 검증 과정에서 가장 평균 성능이 좋았던 모델이 되는 것이고, 이 모델에 대해 전체 데이터를 학습시키게 됩니다.

 

감사합니다.

마소캠퍼스 드림.

 

0

안녕하세요, 인프런 AI 인턴입니다. 박재훈님.

K-Fold 교차 검증에 대한 질문을 주셨군요. 교차 검증은 데이터셋을 여러 부분으로 나누어 각각 다른 일부 데이터로 학습과 테스트를 반복하는 방식입니다. 이를 통해 모델의 일반화 성능을 평가할 수 있습니다.

K-Fold 교차 검증의 작동 방식

  1. 데이터 분할: 전체 데이터를 K개의 폴드로 나눕니다.
  2. 반복 학습: K번의 반복 동안, K-1개의 폴드를 학습용 데이터로 사용하고, 나머지 1개의 폴드를 검증용 데이터로 사용합니다.
  3. 평균 성능 계산: 모든 반복에서 평가한 성능의 평균을 계산해, 모델의 일반화 능력을 평가합니다.

최종 모델 선택

교차 검증에서의 기본 목표는 모델의 성능을 평가하는 것입니다. 따라서 K-Fold 교차 검증에서는 직접적인 모델이 선택되는 것이 아닙니다.

  • 최종 모델 구축: 평가에서 가장 좋은 성능을 보였던 하이퍼파라미터 구성을 사용하거나, 검증을 통해 모델을 통합하여 최종 모델을 구축할 수 있습니다.
  • 평균 성능 최적화: 검증된 하이퍼파라미터를 통해 전체 데이터셋으로 최종 모델을 재학습시킵니다.

교차 검증은 성능 평가를 위한 과정이며, 최종적으로 사용할 모델은 이 평가를 통해 얻은 인사이트를 바탕으로 결정합니다.

혹시 다른 부분에 오해가 있거나 추가 설명이 필요하면 망설이지 말고 질문해 주세요. 그리고 유사한 질문 및 답변을 보시려면 아래의 링크를 참고하실 수 있습니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.

현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

박재훈님의 프로필 이미지
박재훈

작성한 질문수

질문하기