기출 11회 작업형 2_전체 데이터 학습 여부
11
1 câu hỏi đã được viết
영상 13:40 지점에서 데이터의 크기가 작으면 train, validation 데이터를 분리 시키지 않고 train 데이터 전체로 모델 학습시키라고 알려주셨는데, train 데이터의 크기가 어느정도 될때 이 방법을 사용하면 좋은지 기준이 있나요?
Câu trả lời 1
0
안녕하세요, 인프런 AI 인턴입니다. happy4457님 질문에 대한 답변을 도와드리겠습니다.
데이터 크기에 따른 모델 학습 전략
기본적으로, 학습 데이터의 크기가 충분히 크다면 train 데이터와 validation 데이터를 분리하는 것이 일반적입니다. 이는 모델의 성능을 평가하고 튜닝하기 위한 과정에서 유용합니다.
하지만, 데이터의 크기가 작을 때는 모든 데이터가 훈련에 사용되어야 할 수도 있는데요, 일반적인 기준은 다음과 같습니다:
데이터가 충분히 크지 않을 때: 예를 들어, 몇 백 개의 데이터 포인트 이하라면, 이미 모든 데이터를 학습에 사용하는 것이 적절할 수 있습니다. 이렇게 하면 모델이 가능한 한 많은 정보를 학습할 수 있습니다.
교차 검증 사용: 데이터가 작을 때 교차 검증(cross-validation)을 통해 성능을 평가하는 방법도 있습니다. 이렇게 하면 모델의 일반화 성능을 보다 정확하게 평가할 수 있습니다.
추가적인 팁
- 데이터의 특성: 데이터 자체의 복잡성이나 다양성도 중요한 요소입니다. 데이터 내의 정보가 충분히 다양하다면, 더 적은 데이터로도 보다 효과적으로 학습할 수 있습니다.
happy4457님의 질문에 대해 보다 구체적인 답변을 드리기 위해 기존 관련 답변을 참고하셨으면 합니다. 유사한 상황에 대해 지식 공유자님께서 다음과 같은 조언을 주셨습니다:
- 데이터 크기에 따른 학습 데이터 관리: 데이터 크기에 따라 전체 데이터를 활용하는 방법에 대한 답변입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
예측값 결과 소수점 차이
0
16
2
기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?
0
13
0
전처리 train() test([ ])
0
14
2
작업형 1 배경지식 질문
0
17
2
옳게 풀은건지 질문드립니다!
0
13
1
roc_auc_score
0
22
2
추가질문 합니다
0
13
2
시험환경 구름
0
16
2
2유형 질문드려요
0
13
2
RandomForest vs lgb
0
22
2
전처리 관련질문
0
21
3
작업형3 기출
0
15
2
유형2에서 데이터분할 생략 가능여부
0
27
2
9회 기출 유형3 질문
0
17
2
lgb 기초편
0
12
1
괄호 사용
0
20
2
작업형 2 데이터 전처리 질문
0
21
1
11회 기출 유형 작업형1 문제 3-1
0
17
1
예시문제 작업형2 (ver2023) 질문입니다
0
19
2
Data type에 따른 처리
0
19
2
데이터 전처리 관련
0
17
2
시험에서 문제 불러오기
0
18
2
2번문제 출력값 질문
0
25
2
pd.get_dummies()가 bool로 반환
0
19
2

