기존 질문답변에 대한 질문_학습(학습+검증)-테스트
171
작성한 질문수 104
선생님~
기존질문에 대한 선생님의 답변에서
'요약하자면 학습/검증 데이터를 포함하여 테스트 데이터 역시 전체 데이터의 target 값 데이터 분포를 유지하면서 분리해 주는게 좋습니다. 먼저 학습/테스트 데이터 세트를 target 값 데이터 분포를 유지하며 분리해주고 학습 데이터의 경우 Cross-validation을 위해서는 stratified k-fold로 수행해주는 게 좋습니다. '
이렇게 말씀하신 부분이 있는데요~
답변내용은 잘 이해가 되었는데..
그러면 제가 궁금한 것이..
(교차검증을 배우기 전에) 이전 강의에서 배웠던
학습데이터와 테스트데이터 나누는
train_test_split() 이 메소드(함수?) 에서는~
StratifiedKFold의 split() 기능처럼,
이미 레이블값의 분포도를 유사하게 해주는 기능이 있는 건가요~?
그리고 제가 또 하나 궁금증이 있는 것은
현재 교차검증 파트 부분에서 150개 데이터를 다 갖고와서 학습+검증을 했는데
일반적으로는
150개의 데이터에서
학습용 120개 / 테스트용 30개 를 먼저 나누고,
120개 중에서 3개폴드로 교차검증 한다면
학습 80개 /검증 40개
하고 이렇게 진행하는건가요..?
좀 헷갈리네요..ㅠ.ㅠ
마지막으로,
검증을 하는 의미가 '정확성'이 잘 나오는지 확인하는 거 맞나요~?
제일 헷갈리는 부분이 교차검증이 테스트데이터와는 무슨 연관이 있는지..
'정확성'인거 같은데.. 제가 강의를 좀 더 들어봐야 하는데 너무 이른 질문인가요..? ㅜㅜ
답변 1
0
1. train_test_split() 이 메소드(함수?) 에서는~
StratifiedKFold의 split() 기능처럼,
이미 레이블값의 분포도를 유사하게 해주는 기능이 있는 건가요~?
=> train_test_split() 함수에 인자로 stratify가 있습니다. stratify 값으로 타겟값을 넣어주면 됩니다.
2. 150개의 데이터에서
학습용 120개 / 테스트용 30개 를 먼저 나누고,
120개 중에서 3개폴드로 교차검증 한다면
학습 80개 /검증 40개
하고 이렇게 진행하는건가요..?
=> 네 , 맞습니다.
3. 마지막으로,
검증을 하는 의미가 '정확성'이 잘 나오는지 확인하는 거 맞나요~?
=> 검증을 하는 이유는 말 그대로 해당 데이터가 여러번 성능 평가 검증을 수행하는 것입니다. 한번 시험보지 않고, 여러번 시험을 보는 것입니다. 다만 테스트 데이터로 검증을 하지 않는 이유는 모델을 여러번 테스트/검증하고 하이퍼 파라미터도 튜닝해보면서 완전하게 성능이 올라온다고 판단될 경우 그동안 오픈 되지 않는 데이터 세트로 테스트를 해보는 것입니다.
너무 교차 검증과 테스트 데이터에 대한 개념적인 사항에 집중하실 필요는 없습니다. 실전에서는 교차 검증으로 여러번 테스트 하고, 가능하면, 테스트 데이터는 모델이 튜닝/성숙이 완료 될 때까지 기다린 다음에 최종 테스트를 해보기 위해 숨겨놓는 것 뿐입니다.
안녕하세요 열심히 수강중인 학생입니다
0
59
2
정수 인덱싱
0
67
2
넘파이 오류
0
83
2
11강 numpy의 axis 축 질문 드립니다.
0
84
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
76
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
68
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
74
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
62
2
5강 강의 오류가 있어요.
0
82
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
71
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
68
3
파이썬 다운그레이 후 사이킷런 재설치
0
115
2
좋은 강의 감사합니다.
0
71
2
scoring 함수 음수값
0
66
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
98
2
분류 평가 정확도 예측
0
75
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
97
1
카카오톡 채널 있나요
0
105
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
187
2
pca 스케일링 관련하여 질문드립니다.
0
100
2
주피터 대신 구글 코랩
0
170
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
145
2
실루엣 스코어..
0
83
2
float64 null 값 처리 방법
0
101
2





