작업형 2유형 질문

Question

작업형 2유형의 경우, 랜덤 포레스트 모델을 사용하기 전에 범주형 (object, category...)에 해당하는 데이터에 원핫인코딩을 적용하는 것으로 알고 있습니다. 일부 강의에서는 select_dtypes로 해당하는 데이터들을 찾아서 그 부분들만 원핫인코딩을 한 것으로 알고 있는데, 기출에서는 그냥 train이나 test 데이터 통째로 get_dummies 사용하신 것 보고 궁금증이 남아 문의 드립니다. 굳이 범주형, 수치형 구분하지 않고 get_dummies 에 적용해도 될까요? 두 번째 질문으로는,, 작업형 2유형 문제에서 가령 roc_auc_score 를 평가 지표로 삼아라 ~ 따위의 문제가 나오는데 이때 roc말고 f1_score같은 분류 문제에서 사용되는 다른 평가지표를 사용하게 된다면 감점의 요인으로 작용할까요? 두 가지 질문 드리고 싶습니다. 양질의 강의 감사합니다!

퇴근후딴짓 · Answer

네 구분하지 않고 한번에 넣으면됩니다. 작업형2의 평가는 csv파일로만 합니다. 다른 평가지표를 사용하더라도 감점의 요소는 아니에요! 다만 채점 평가 기준으로 csv를 채점했을 때 주최측에서 정한 40점 범위에 미달되면 감점이 됩니다. 그래도 만약 시험에서 모르는 평가지표가 나온다면 알고있는 평가 지표로 하는 것도 방법입니다.