학습 데이터와 원본 데이터
답변 1
0
안녕하십니까,
1. hyperopt의 목적함수를 만들 때 교차검증을 이용하여 조기중단을 수행하려 하는데 이때 교차검증을 나누는 과정에서 원본데이터를 이용하여 검증과 학습데이터로 나눠야 할지, 아니면 train_test_split을 이용해 이미 한번 나눴던 데이터를 넣어 또 다시 검증과 학습데이터로 나눠 수행해야 하는건지 잘 감이 잡히지 않습니다 어떤 방법이 최적의 머신러닝을 만드는데 더 옮은 방법인가요?
=> 어떤걸로 하던 큰 차이는 없습니다.
다만 원본 데이터가 전체 데이터이고, 여기서 테스트 데이터를 따로 만들어서 테스트 데이터로만 성능 평가를 해보겠다고 한다면 train_test_split로 별도 학습과 테스트 데이터로 분리한 다음에 학습 데이터로 교차 검증후 테스트 데이터로 성능 평가를 하시면 됩니다.
굳이 성능 평가를 테스트 데이터로 안하고 교차 검증만으로 완료하겠다고 한다면 train_test_split을 적용안하고, 원본 데이터 만으로 교차 검증을 수행해도 됩니다.
테스트 데이터로 최종 성능 평가를 해보겠다, 안하겠다의 차이 정도로 생각해 주시면 됩니다.
2. 강의를 기반으로 캐글에 모델 제출을 한번 해보려하는데, 모델을 최종적으로 구축할 때는 원본데이터를 학습시켜야 하나요? 아니면 train_test_split으로 나눈 학습 데이터를 학습을 시켜야 하나요?
=> 캐글의 경우는 별도의 테스트 데이터로 최종 검증을 하므로 train_test_split()으로 나누지 않고, 교차 검증으로만 검증 후 적용하면 됩니다. 단 모델의 성능을 미리 평가해보고자 하는데 교차 검증도 좋지만 별도의 테스트 데이터로 한번 해보고자 한다면 train_test_split()으로 나누면 됩니다.
감사합니다.
모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.
0
56
2
안녕하세요 열심히 수강중인 학생입니다
0
93
2
정수 인덱싱
0
86
2
넘파이 오류
0
115
2
11강 numpy의 axis 축 질문 드립니다.
0
109
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
97
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
81
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
83
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
75
2
5강 강의 오류가 있어요.
0
90
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
81
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
79
3
파이썬 다운그레이 후 사이킷런 재설치
0
131
2
좋은 강의 감사합니다.
0
81
2
scoring 함수 음수값
0
75
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
108
2
분류 평가 정확도 예측
0
90
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
114
1
카카오톡 채널 있나요
0
119
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
195
2
pca 스케일링 관련하여 질문드립니다.
0
109
2
주피터 대신 구글 코랩
0
184
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
156
2
실루엣 스코어..
0
93
2





