인프런 커뮤니티 질문&답변

김기범

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제1

2유형 학습 모델 선정

해결된 질문

작성

본 강의 문제에서,

답안제출예시가 아래사진처럼, 타겟값인 'Attrition_Flag' 수치가 0.633 혹은 0.355 이렇게 돼있는데, 제가 xgb모델을 써보니 타겟값 'Attrition_Flag' 수치가 0.00003 , 0.00078 이렇게 너무 작게 나옵니다.

RandomForest 모델을 사용하면 답안 예시와 수치가 비슷하게 나오긴하나, xgb 모델이 roc 점수가 더 높게 나옵니다. xgb 모델을 사용해서 제출해도 점수에 이상이 없을까요?

답안 제출 예시
CLIENTNUM,Attrition_Flag
788544108,0.633
719356008,0.123
712142733,0.355

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

네 평가 지표기준으로 보시면 됩니다.

xgb가 더 높다면 xgb 추천합니다.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 김기범님께서 분류 모델 사용 시 예측 확률 값의 차이에 대해 질문해 주셨군요.

XGBoost와 RandomForest는 둘 다 강력한 앙상블 학습 알고리즘입니다. 두 알고리즘 모두 predict_proba 메서드를 통해 확률 값을 예측할 수 있습니다. 그러나 각 알고리즘의 출력 확률 값은 데이터와 알고리즘 자체의 특성에 따라 다를 수 있습니다.

XGBoost가 예측하는 확률이 RandomForest에 비해 매우 작은 이유는 다음과 같을 수 있습니다:
- 모델 파라미터: XGBoost는 다양한 하이퍼파라미터를 가지고 있는데, 파라미터 값에 따라 확률 값이 작아질 수 있습니다. 특히 scale_pos_weight나 eta 등의 파라미터가 영향을 미칠 수 있습니다.
- 데이터 전처리: 입력 데이터가 스케일링 또는 정규화되지 않았다면 모델에 따라 출력 확률 값이 달라질 수 있습니다.
- 모델 복잡성: XGBoost는 더 복잡한 모델을 생성할 수 있어 특정 케이스에서는 매우 작은 확률을 예측할 수 있습니다.

제출할 때는 예측 확률을 그대로 사용하는 것이 좋습니다. 최종 점수는 모델의 성능, 특히 ROC AUC 점수로 평가됩니다. ROC AUC 점수가 높다는 것은 모델이 좋은 분류 능력을 가지고 있다는 것을 의미하므로, 제출 시에는 XGBoost의 예측 결과를 사용하는 것이 타당할 수 있습니다.

추가적인 도움이 필요하시면, 아래 링크에서 유사한 상황을 다룬 질문과 답변을 참고하실 수 있습니다:

test예측할 때 predict_proba 로 제출한 이유가…: 이 게시물에서는 예측 확률을 사용하는 이유와 평가 방법에 대해 논의합니다.
예시문제 작업형2(신 버전): 여기서는 predict와 predict_proba의 차이와 사용 시점에 대해 설명합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

김기범

작성한 질문수

전체 Q&A

질문하기