작업형2 연습문제 1 질문

Question

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요 먼저 유사한 질문이 있었는지 검색해보세요 ROC-AUC로 평가하는데 데이터 전처리를 아래와 같이하고 y=train.pop('Outcome') 아래와 같이 코드를 작성해도 평가에는 지장이 없을까요? 혹시 꼭 검증데이터 분할을 진행해야 평가를 진행할 수 있는 건지 궁금합니다. df=pd.concat([train, test]) df=pd.get_dummies(df) train=df.iloc[:len(train)] test=df.iloc[len(train):] from sklearn.ensemble import RandomForestClassifier rf =RandomForestClassifier(random_state=0) rf.fit(train,y) pred=rf.predict(test) submit = pd.DataFrame({'pred':pred}) submit.to_csv('result.csv', index=False)

퇴근후딴짓 · Answer

ROC-AUC 일때 기출 강의 영상 다시 한번 확인 부탁드려요 Predict_proba 즉 확률 값으로 제출해야 40점에 문제가 없습니다 Predict도 가능은 하나 점수가 낮아요!

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. seungji님. 작업형 2 유형의 문제에 대해 질문 주셨군요. ROC-AUC 평가의 경우, 주로 이진 분류 문제에서 모델의 성능을 평가하기 위해 사용됩니다. 주어진 코드에서 검증 데이터 분할의 필요성에 대해 고민하고 계신 것 같습니다. 검증 데이터 분할은 모델 성능을 객관적으로 평가하는 데 필수적입니다. 학습 데이터와 전혀 다른 데이터에서 모델이 얼마나 잘 일반화할 수 있는지를 검증하는 단계이기 때문입니다. 검증 데이터 없이 학습 데이터에만 의존한다면, 모델이 학습 데이터에 너무 과적합되어 실제 데이터에 적용했을 때 기대에 미치지 못할 수 있습니다. 현재 주어진 코드는 단순히 train 데이터 전체를 사용하여 모델을 학습한 후 test 데이터에 대해 예측을 수행하고 있습니다. 이 방식에서는 평가가 아닌 최종 예측 촬영 과정에 가깝습니다. 검증 데이터 분할이 필요한 이유와 방법에 대해서는 아래와 같은 내용을 참고할 수 있습니다: 교차 검증의 필요성 : 데이터를 훈련 세트와 검증 세트로 나누어 모델의 성능을 점검해봄으로써 과적합을 방지할 수 있습니다. 데이터 분할 방법 : train_test_split 함수 등을 이용하여 데이터를 훈련과 검증 세트로 분할할 수 있습니다. 이를 통해 검증 세트를 사용해 모델의 성능을 측정하고, 파라미터 튜닝 등에 활용할 수 있습니다. 유사한 질문이 다루어진 기존 게시글을 추천드립니다. 다음은 비슷한 내용의 게시글입니다: 작업형 2유형 기출 문제 위 게시글에서는 검증 데이터 분할에 대한 기본적인 설명과 방식을 다루고 있습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.