• 카테고리

    질문 & 답변
  • 세부 분야

    자격증 (데이터 사이언스)

  • 해결 여부

    해결됨

test_size를 조절하니 pred_proba와 test_id 개수가 맞춰졌습니다

23.12.01 22:30 작성 23.12.01 22:36 수정 조회수 223

0

  1. 랜덤포레스트로 단순하게 테스트사이즈를 0.2로 하고 진행했더니 행의 개수가 달라지더라고요! 그래서 계속 오류가 발생했는데 테스트 사이즈를 조절하다 0.25로 하니 61개로 딱 맞아서 답이 출력되네요!

왜 그런지 혹시 이유가 있을까요?

  1. 사진과 같이 roc로하면 확률이 나오는데 단순하게 pred로 하면 확률이 아닌 0 과1로 출력이 됩니다. 원래 이렇게 나오는건지 궁금하고 문제에서는 roc로 csv를 구하라는건지 궁금합니다. 감사합니다!화면 캡처 2023-12-01 223450.jpg

답변 2

·

답변을 작성해보세요.

0

승찬님의 프로필

승찬

질문자

2023.12.01

삭제된 글입니다

1번 문제는 다시 읽어 보니 무엇을 보고 말하는 건지 모르겠습니다. 에러 상황의 코드와 에러를 보여주시겠어요??

2번

predict과 predict_proba의 차이입니다. roc-auc를 평가지표로 할때만predict_proba를 사용해주세요

 

코드보면 검증데이터에서는 predict_proba를 사용했고

테스터 데이터에서는 predict를 사용했어요

우선 강의를 어디까지 따라 해보셨을까요? 아직 패턴이 익숙하지 않은 것 같아요 😭

0

큰 실수를 하고 있는 것 같습니다.

검증용 데이터를 절대 제출용으로 사용하면 안됩니다. 0점 처리됨

테스트 데이터를 예측하고 그 결과값을 제출해야 합니다.

승찬님의 프로필

승찬

질문자

2023.12.01

검증용데이터를 업로드 하지 않았는데 사용이 가능한가요? 어디서 꼬인지 잘 모르겠어요ㅠㅠ

일단 pred가 아닌 pred_proba로 예측하면 정상적으로 답이 나옵니다!

승찬님의 프로필

승찬

질문자

2023.12.01

1.jpg문제를 roc-auc를 사용하니 에러없이 정상적으로 나왔습니다!

제가 해보고 싶은건 accuracy나 f1으로 'output' 의 value값으로 해보고 싶었던건데 이 부분이 확률로 나오는게 아닌 pred를 찍어본것처럼 0과 1로 출력이 되어서 그 부분이 궁금합니다!

네 0 1로 나오는게 정상입니다 . pred값으로 f1 스코어를 평가하면됩니다.

당장 오늘이 시험이므로 평가지표 1개만 다루는 기출6, 5, 4… 순으로 로 학습하시고,

똑같이 따라서 학습해주세요!

꼬인것을 풀면서 할 시간은 없을 같아요