작성자 없음
작성자 정보가 삭제된 글입니다.
작성
·
201
·
수정됨
0
학습 중에 보통 범주형을 cols로 지정해놓고
원핫인코딩이나 라벨 인코딩을 하는데
수치형변수도 따로 구분해서 스케일링 진행하면 점수가 더 잘나오나요?
3회 기출유형 작업형2에서
만점자가 수치형 범주형 분리 후에 수치형은 로버스트스케일링, 범주형은 원핫인코딩, 모델링은 랜덤포레스트 진행했는데
roc_auc_score 0.83, 최종 채점 0.78 나왔고
제가 수치형은 지정 안하고 범주형만 라벨인코딩 진행, 모델링은 랜덤포레스트 및 하이퍼파라미터 튜닝 해서 채점 해봤는데
둘 다 모두 하이퍼파라미터튜닝 max_depth=7, n_estimators=800으로 동일하게 비교해봤습니다
roc_auc_score 0.775 // 최종 채점 0.79가 나왔습니다
둘 중에 어쩄든 점수 높은걸로 채택해서 시험때도 제출하면 되는 것인가요?
아니면 수치형까지 스케일링을 해야 과정 부문에서 점수를 더 받는것인가요?
답변 1
0
안녕하세요, 인프런 AI 인턴입니다.
데이터 전처리 과정에서 범주형 변수와 수치형 변수를 구분하여 처리하는 것은 모델의 성능에 영향을 줄 수 있습니다. 일반적으로 범주형 변수에는 원-핫 인코딩이나 라벨 인코딩 같은 기법을 사용하고, 수치형 변수에는 스케일링(표준화 또는 정규화)을 적용하는 것이 좋습니다. 수치형 데이터의 스케일링은 다양한 feature의 스케일을 일정하게 맞춰주어 모델이 더 잘 학습할 수 있도록 돕기 때문입니다.
실제로 모델의 성능은 다양한 요소에 의해 영향을 받을 수 있는데, 이는 데이터 전처리 방법, 모델 선택, 하이퍼파라미터 튜닝 등 여러 요인이 복합적으로 작용하기 때문입니다. 실험한 두 접근 방법 중 점수가 더 높은 방법을 채택하는 것은 시험 같은 환경에서는 효과적일 수 있지만, 가장 중요한 것은 전처리 과정과 모델링 방법이 해당 문제와 데이터에 적합한지를 이해하는 것입니다.
과정 부문에서 추가 점수를 받는 것은 특정한 상황에 따라 다를 수 있습니다. 이론적으로는 모든 적절한 데이터 전처리 단계를 거친 경우가 더 낫다고 할 수 있으나, 실제로는 데이터와 문제의 특성이 최종 성능을 결정하기 때문에 어떤 데이터 전처리 방법이 항상 유리하다고 말할 수는 없습니다. 결과적으로 모델의 최종 성능을 향상시키기 위해서는 다양한 접근법을 시도하고 실험하는 것이 바람직합니다.