저는 의사결정 나무의 예측값이 왜 다르게 나올까요?

Question

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요 먼저 유사한 질문이 있었는지 검색해보세요 똑같이 하려고 노력한 것 같은데 조금씩 다르게 나오네요...

퇴근후딴짓 · Answer

작업형1과 3은 정답이 있는 문제입니다. 값이 정확하고 1개만 정답입니다. 작업형2는 사람마다 똑같은 결과가 나오기 어렵고 평가지표로만 평가합니다. 결과를 구간을 채점합니다. 예 95~100 -> 40점 그리고 정답은 시험이 끝나도 알 수 없습니다.

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. ehddls91님. 의사결정 나무와 같은 머신러닝 모델에서 예측값이 다르게 나오는 이유는 여러 가지 요인이 있을 수 있습니다. 여기 몇 가지 주요 원인을 설명드리겠습니다: 랜덤성 요소 : 의사결정 나무나 랜덤포레스트 모델은 데이터 샘플링이나 특징 선택 단계에서 무작위성을 사용합니다. 따라서 random_state 를 설정하지 않는 경우, 매번 실행할 때마다 다른 예측 결과를 초래할 수 있습니다. 코드에서 RandomForestClassifier 나 DecisionTreeClassifier 를 사용할 때, random_state 를 설정하여 재현 가능성을 확보해 보세요. 모델 파라미터의 차이 : 모델의 하이퍼파라미터가 조금이라도 다르면 다른 예측 결과가 나올 수 있습니다. 예를 들어, max_depth , min_samples_split 등의 하이퍼파라미터에 대해 동일한 설정이 되어 있는지 확인해 보시기 바랍니다. 데이터 전처리 차이 : 데이터의 전처리 과정에서 차이가 있을 수 있습니다. 특히 데이터의 결측값 처리, 범주형 변수 인코딩 등이 달라지면 모델 입력에 차이가 생기고, 결과에 영향이 미칠 수 있습니다. 데이터 셋의 차이 : 데이터 파일을 최신 상태로 불러오지 않았거나, 불러온 데이터가 초기 데이터와 차이가 있을 수 있습니다. 기본적으로 데이터가 동일한지 확인해 보세요. 이미지를 통해 제공해주신 Python 코드에서, 데이터가 제대로 처리되고 있는지, 특히 income 컬럼이 0과 1로 잘 변환되었는지, DataFrame의 id 와 income 컬럼이 정확한지 확인해 보세요. 아래 관련된 질문들이 도움이 될 수 있습니다. 체크해보시면 좋을 것 같습니다: predict_proba로 제출한 이유 분류 문제에서 확률과 레이블 간의 차이점 데이터 전처리와 예측값 간의 관계 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.