최적의 cv값에 대한 질문
755
작성한 질문수 63
현재 약 200개의 Train Dataset을 대상으로 분류를 위한 SVM을 진행하면서 GridSearch를 통해 최적의 파라미터를 찾고 있습니다.
분석을 진행하면서 궁금해진 것이 최적의 CV값을 어떻게 정해야할지에 대한 것입니다. CV값을 높여가면서 best_score와 Test Dataset에 대한 적용 결과도 함께 좋아지긴 하는데 특정 CV를 넘어서는, 예를 들어 CV=7를 넘어서 8, 9, 10 등등에서의 결과가 전체적으로는 비슷하면서도 어떤 CV값에서는 Test에서의 결과가 best_score보다 높다거나, 다른 CV값에서는 best_score가 Test Dataset보다 높아서 CV값을 어떻게 설정하여 학습을 진행해야 할지 잘 모르겠습니다.
더하여 궁금한 것이 Train에서의 성능보다 Test에서의 성능이 높게 나타나는 게 좋은 것인지 궁금하며
특정 CV값을 넘어서는 n_splits=20 cannot be greater than the number of members in each class. 와 같은 오류가 발생하는데 무엇이 이유인지 알고 싶습니다.
답변 1
0
안녕하십니까,
1. CV를 몇개로 해야 되는지에 대한 기준은 없습니다.
보통은 전체 데이터의 20%로 정도로 합니다. 그러면 CV는 5정도 됩니다. 그런데 데이터 건수 자체가 작으면 사실 CV를 몇개로 잡느냐에 따라서 성능 차이가 날 수도 있습니다. 그러니까, 전체 데이터 건수가 작다보니 Validation 용으로 잡히는 데이터 건수도 작아지고, 이로 인해서 validation 데이터로 검증 시마다 편차가 심해 질 수 있습니다.
이게 전체 데이터 건수가 작기 때문에 cv개수에 따라서 편차가 발생하는 것 뿐이지, 이런 편차를 기준으로 성능을 기준점을 잡는다거나, CV 개수에 너무 민감하게 생각할 필요는 없어 보입니다. 현재 200개의 학습 데이터를 기반으로 CV를 7이상 잡으시면 너무 Validation 데이터가 적어서 이에 따른 변동성은 큰 의미가 없어 보입니다.
cv를 3또는 5정도로 잡으시고 테스트 결과로 판단하시는게 좋아 보입니다(cv=3 일 경우 학습 데이터가 적어져서 성능 영향도가 발생 할 수도 있을 것 같습니다)
2.흔하진 않지만 Train 보다 Test의 성능이 높게 나타날 수도 있습니다. 학습 데이터의 건수가 200건 정도밖에 안되서 충분히 학습 되지 않은 상태에서 test를 적용해서 그런건 아닌지 의심이 되는 군요.
3. 아마도 데이터 건수가 작은데 stratified fold 방식으로 n_splits를 20개 나누려다 보니, 특정 label의 건수가 상대적으로 아주 작아서 아예 split이 안되는 현상으로 보입니다. 그러니까 전체 학습 데이터 200건중 특정 label의 건수가 20건이 안되는데 이를 n_splits 20으로 나누려다 보니 오류가 발생하는 것 같습니다.
n_splits=20 cannot be greater than the number of members in each class
모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.
0
50
2
안녕하세요 열심히 수강중인 학생입니다
0
86
2
정수 인덱싱
0
86
2
넘파이 오류
0
108
2
11강 numpy의 axis 축 질문 드립니다.
0
106
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
92
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
76
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
83
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
73
2
5강 강의 오류가 있어요.
0
90
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
81
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
75
3
파이썬 다운그레이 후 사이킷런 재설치
0
128
2
좋은 강의 감사합니다.
0
79
2
scoring 함수 음수값
0
72
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
108
2
분류 평가 정확도 예측
0
87
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
114
1
카카오톡 채널 있나요
0
118
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
193
2
pca 스케일링 관련하여 질문드립니다.
0
109
2
주피터 대신 구글 코랩
0
184
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
155
2
실루엣 스코어..
0
91
2





