유형2에서 데이터분할 생략 가능여부
5
投稿した質問数 1
안녕하세요, 급하게 벼락치기 중인 수강생입니다ㅠ
작업유형2에서
train,val 분리없이(데이터분할 과정 생략) 작성해도 괜찮은지요?
타겟분리와 관련해서 순서가 너무 헷갈려서 그러는데 데이터 불러온 후 바로 타겟분리하고 전처리 하더라도 지장이 없을까요?
回答 1
0
안녕하세요, 인프런 AI 인턴입니다. Qnfldzmf님.
작업형 2에 대한 질문에 대해 답변해 드리겠습니다.
데이터 분할 생략 여부:
- 데이터 분할은 일반적으로 모델의 성능을 평가하기 위해서 합니다. 그러나 시험 상황에서는 시간 제약이 있거나 문제에서 특별히 요구하지 않는다면 생략할 수 있습니다. 하지만, 데이터 분할 없이 진행할 경우 오버피팅(overfitting)의 위험이 있다는 점을 염두에 두시기 바랍니다. 데이터 분할 없이 모델을 학습하면 훈련 데이터에 과적합될 수 있으며, 이는 실제 성능 평가 시 한계점으로 작용할 수 있습니다. 가능하다면 작은 비율이라도 검증셋을 준비하여 성능을 평가하는 것을 추천드립니다.
- 데이터 분할은 일반적으로 모델의 성능을 평가하기 위해서 합니다. 그러나 시험 상황에서는 시간 제약이 있거나 문제에서 특별히 요구하지 않는다면 생략할 수 있습니다. 하지만, 데이터 분할 없이 진행할 경우 오버피팅(overfitting)의 위험이 있다는 점을 염두에 두시기 바랍니다. 데이터 분할 없이 모델을 학습하면 훈련 데이터에 과적합될 수 있으며, 이는 실제 성능 평가 시 한계점으로 작용할 수 있습니다. 가능하다면 작은 비율이라도 검증셋을 준비하여 성능을 평가하는 것을 추천드립니다.
타겟 분리 순서:
- 일반적인 데이터 전처리 순서는 다음과 같습니다:
- 데이터 로딩
- 타겟 추출 (e.g.,
target = train.pop('타겟'))
- 데이터 전처리 (결측치 처리, 인코딩 등)
- 데이터 로딩
- 일반적인 데이터 전처리 순서는 다음과 같습니다:
타겟을 데이터에서 분리하는 것은 전처리 초기 단계에서 하는 것이 좋습니다. 타겟을 분리하고 나면, 독립변수들에 대한 인코딩이나 변환 작업이 더 안전하게 이루어질 수 있습니다. 따라서, 데이터 불러온 후에 바로 타겟을 분리하고 나서 전처리를 진행해도 문제 없습니다.
관련해서 이전에 다루어진 유사한 질문들을 아래에서 확인하실 수 있습니다:
- 작업형 2 설명 및 데이터 분리
- 데이터 전처리 및 타겟 분리 관련
위 링크들을 통해 다양한 상황에 대한 더 구체적인 답변 및 예시를 확인해 보실 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
작업형3 기출
0
3
1
9회 기출 유형3 질문
0
7
1
lgb 기초편
0
5
1
괄호 사용
0
7
1
작업형 2 데이터 전처리 질문
0
9
0
11회 기출 유형 작업형1 문제 3-1
0
7
0
예시문제 작업형2 (ver2023) 질문입니다
0
9
1
Data type에 따른 처리
0
5
1
데이터 전처리 관련
0
13
2
시험에서 문제 불러오기
0
12
2
2번문제 출력값 질문
0
16
2
pd.get_dummies()가 bool로 반환
0
16
2
대응표본검정 레빈
0
19
3
단일표본검정 문제 유형
0
20
2
[작업형 3] 6~7. 카이제곱 검정
0
16
2
9회 작업형3 문제 1-1
0
32
2
최종답안 계산 방식 질문
0
18
1
시험 치기 전 급하게 질문 사항
0
34
2
유형3
0
29
2
작업형 2 연습문제 섹션 3
0
19
2
11 기출문제 ipynb파일
0
32
2
작업형 3 유형
0
27
2
11회 기출 유형(작업형1) 2번 정답
0
27
2
f1 score 질문
0
23
2

