작업형2 연습문제 1 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
먼저 유사한 질문이 있었는지 검색해보세요
ROC-AUC로 평가하는데 데이터 전처리를 아래와 같이하고
y=train.pop('Outcome')
아래와 같이 코드를 작성해도 평가에는 지장이 없을까요?
혹시 꼭 검증데이터 분할을 진행해야 평가를 진행할 수 있는 건지 궁금합니다.
df=pd.concat([train, test])
df=pd.get_dummies(df)
train=df.iloc[:len(train)]
test=df.iloc[len(train):]
from sklearn.ensemble import RandomForestClassifier
rf =RandomForestClassifier(random_state=0)
rf.fit(train,y)
pred=rf.predict(test)
submit = pd.DataFrame({'pred':pred})
submit.to_csv('result.csv', index=False)
답변 2
0
ROC-AUC 일때 기출 강의 영상 다시 한번 확인 부탁드려요
Predict_proba 즉 확률 값으로 제출해야 40점에 문제가 없습니다
Predict도 가능은 하나 점수가 낮아요!
0
안녕하세요, 인프런 AI 인턴입니다. seungji님.
작업형 2 유형의 문제에 대해 질문 주셨군요. ROC-AUC 평가의 경우, 주로 이진 분류 문제에서 모델의 성능을 평가하기 위해 사용됩니다. 주어진 코드에서 검증 데이터 분할의 필요성에 대해 고민하고 계신 것 같습니다.
검증 데이터 분할은 모델 성능을 객관적으로 평가하는 데 필수적입니다. 학습 데이터와 전혀 다른 데이터에서 모델이 얼마나 잘 일반화할 수 있는지를 검증하는 단계이기 때문입니다. 검증 데이터 없이 학습 데이터에만 의존한다면, 모델이 학습 데이터에 너무 과적합되어 실제 데이터에 적용했을 때 기대에 미치지 못할 수 있습니다.
현재 주어진 코드는 단순히 train 데이터 전체를 사용하여 모델을 학습한 후 test 데이터에 대해 예측을 수행하고 있습니다. 이 방식에서는 평가가 아닌 최종 예측 촬영 과정에 가깝습니다.
검증 데이터 분할이 필요한 이유와 방법에 대해서는 아래와 같은 내용을 참고할 수 있습니다:
교차 검증의 필요성: 데이터를 훈련 세트와 검증 세트로 나누어 모델의 성능을 점검해봄으로써 과적합을 방지할 수 있습니다.
데이터 분할 방법:
train_test_split함수 등을 이용하여 데이터를 훈련과 검증 세트로 분할할 수 있습니다. 이를 통해 검증 세트를 사용해 모델의 성능을 측정하고, 파라미터 튜닝 등에 활용할 수 있습니다.
유사한 질문이 다루어진 기존 게시글을 추천드립니다. 다음은 비슷한 내용의 게시글입니다:
위 게시글에서는 검증 데이터 분할에 대한 기본적인 설명과 방식을 다루고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
추가질문 합니다
0
7
1
시험환경 구름
0
9
1
2유형 질문드려요
0
7
1
RandomForest vs lgb
0
18
1
전처리 관련질문
0
12
2
작업형3 기출
0
12
1
유형2에서 데이터분할 생략 가능여부
0
20
2
9회 기출 유형3 질문
0
15
1
lgb 기초편
0
10
1
괄호 사용
0
15
1
작업형 2 데이터 전처리 질문
0
18
1
11회 기출 유형 작업형1 문제 3-1
0
14
0
예시문제 작업형2 (ver2023) 질문입니다
0
16
1
Data type에 따른 처리
0
15
2
데이터 전처리 관련
0
15
2
시험에서 문제 불러오기
0
18
2
2번문제 출력값 질문
0
21
2
pd.get_dummies()가 bool로 반환
0
18
2
대응표본검정 레빈
0
23
3
단일표본검정 문제 유형
0
23
2
[작업형 3] 6~7. 카이제곱 검정
0
22
2
9회 작업형3 문제 1-1
0
37
2
최종답안 계산 방식 질문
0
25
1
시험 치기 전 급하게 질문 사항
0
41
2





