학습 데이터셋에서 검증 데이터셋 나눌 때
560
작성한 질문수 7
선생님 안녕하세요. 두가지 질문이 있습니다.
검증데이터셋을 구성할 때, 학습데이터 내의 데이터로 검증 데이터셋을 구성하는 이유는 학습데이터셋에 대한 과적합을 확인하기 위해서 인가요?
그렇다면 다른 데이터셋으로 진행할 때도 학습데이터셋 내에서 검증 데이터셋을 구성하는 것이 맞는건가요?
학습,검증데이터셋을 나눠줄 때 사이킷런의 train_test_split 을 사용하는 이유는 단순히 데이터셋을 나누기에 적합한 함수이기 때문에 사용하는 것이죠? test data, valid data를 나누는데 함수 이름이 train_test_split이라서 헷갈리네요.
답변 1
1
안녕하십니까,
검증 데이터를 나눌 때 반드시 학습 데이터를 가지고 나눌 필요는 없습니다. 다만 별도의 검증 데이터가 준비되어 있지 않는 경우에는 일반적으로는 학습 데이터를 가지고 검증 데이터를 사용합니다.
제일 좋은 것은 학습 데이터, 검증 데이터, 테스트 데이터가 모두 따로 준비되면 좋습니다. 하지만 현실적으로는 데이터를 많이 구하지 못하는 경우가 많아서 학습 데이터가 있으면 이들중 일부를 검증 데이터로 활용하곤 합니다.
MNIST 데이터 세트는 학습과 테스트 데이터로 구성되어 있어서 검증 데이터를 위해 학습 데이터를 이용해 분리했을 뿐입니다.
네 맞습니다. train_test_split 을 사용하는 이유는 단순히 데이터셋을 나누기에 적합한 함수이기 때문에 사용하는 것입니다. 이름은 좀 헷갈릴수 있겠군요.
감사합니다.
resize 질문
0
51
1
20251212 Kaggle 런타임에 scikit-learn 설치 실패 트러블 슈팅
0
76
1
Loss와 매트릭 관계
0
62
2
Boston 코랩 실습
0
164
2
배치 정규화의 이해와 적용 2 강의 질문
0
136
2
Augmentation원본에 적용해서 데이터 갯수 자체를 늘리는 행위는 의미가있나요?
0
145
2
Conv함수 안에 activation 을 넣지 않는 이유가 뭔지 궁금합니다.
0
206
2
소프트맥스 관련 질문입니다
0
208
1
강의 관련 질문입니다
0
151
2
residual block과 identity block의 차이
0
190
2
옵티마이저와 경사하강법의 차이가 궁금합니다.
1
240
1
실습 환경
0
165
2
입력 이미지 크기
0
244
2
데이터 증강
0
196
2
albumentations ShiftScaleRotate
0
207
1
Model Input Size 관련
0
281
1
마지막에 bird -> frog 말고도 deer -> frog 도 잘못된것 아닌가요??
0
204
1
일반적인 질문 (kaggle notebook사용)
0
272
2
실무에서 Augmentation 적용 시
0
338
2
안녕하세요 교수님
0
231
1
가중치 초기화(Weight Initialization) 질문입니다.
0
327
1
테스트 데이터셋 predict의 'NoneType' object has no attribute 'shape' 오류
0
409
1
학습이 이상하게 됩니다.
2
1036
2
boston import가 안됩니다
0
229
1





