유형2 채점기준 관련

Question

안녕하세요 강사님, 오늘 빅분기 6회 실기 시험을 치르고 나왔는데요 (생각보다 어려웠네요 ㅠ) 빅데이터 분석기사 2유형의 0점유형에 '예측값 정확도가 평가지표 최저 구간 미만 : 0점' 이라고 적혀있는데, ' 평가지표 최저 구간'이라는 의미가 어떻게 되는지 알 수 있을까요? 분류 문제가 나와서 처음에는 RandomForestClassifier로 예측했고, 요구하는 평가지표(f1-macro)로 돌려봤더니 train 데이터에서 분리(train_test_split)한 validation 데이터 0.9이상이 나와서 과적합인 것 같아서 강사님께서 얼마전 알려주신 lightgbm으로 바꾼 다음에 하이퍼파라미터 수정해보니 0.8정도 나와서 분류 예측 후 제출하였습니다. 그런데 빅데이터 관련 카페 글 보니, 대부분 랜포로 돌린다음에 0.9이상인 상태에서 분류 후 제출했다고 하네요 그러면서 빅데이터 카페에 어떤 분이 train 데이터에서 분리한 train 과 validation 데이터 모두 평가지표가 높게 나오면 과적합이 아니라는 얘기를 들었습니다...ㅠ 평가지표 최저 구간이라는 의미가 각 모델의 하이퍼파라미터를 건드리지 않고 그냥 모델을 예측했을 때의 평가지표 일까요? (예를 들면 LGBMClassifier의 하이퍼파라미터 없는 상태에서 0.9면 기준이 0.9가 되는건지...) 이게 맞다면 저는 0점이겠네요..ㅠ, lightgbm도 아무런 하이퍼파라미터 없이는 0.9이상이였거든요.. 무튼, 덕분에 많은 것들 배울 수 있어서 감사했습니다! +글 작성후 추가 구글 Bard 한테 물어봤더니... train, validation 데이터 모두 0.9 이상 인 경우 과적합으로 볼 수 있냐는 질문을 했더니 아래와 같이 답변이 나오기는 했네요.. <답변> 네, train 데이터와 validation 데이터 모두 해당 모델에 대한 평가지표가 0.9인 경우에도 과적합이 발생할 가능성이 있습니다. 과적합은 모델의 복잡성이 너무 높아서 train 데이터에만 적응하는 상태를 말합니다. train 데이터와 validation 데이터 모두 해당 모델에 대한 평가지표가 높다는 것은 모델이 train 데이터에 너무 적응하여 그 외의 데이터에는 제대로 대응하지 못하는 상태일 가능성이 높습니다.

퇴근후딴짓 · Answer

일반적으로 과적합을 이야기 할 때는 Train 점수는 좋아지고 validation점수는 올랐다 점점 떨어지기 시작하면 오버피팅(과대적합)이라고 이야기 합니다. 따라서 지금 말씀해준 것만으로는 과대적합 되었다고 판단하긴 어려울 것 같아요!! 평가지표 최저 구간이라는 것은 자체적으로 정한 기준입니다. 루나킹님이 제작한 모델로 평가하는 것이 아니라 예측한 csv로 평가를 합니다. 해당 csv파일을 f1-score로 평가 했을 때 출제자 측의 기준 즉 만약 0.7이 최저라면 이 이하는 0점 처리된다는 말입니다:) 오늘 시험 본다고 너무 고생많으셨어요~~ :)