강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

작성자 없음

작성자 정보가 삭제된 글입니다.

학습 중 궁금증(수치형 범주형 전처리)

작성

·

201

·

수정됨

0

학습 중에 보통 범주형을 cols로 지정해놓고

 

원핫인코딩이나 라벨 인코딩을 하는데

 

수치형변수도 따로 구분해서 스케일링 진행하면 점수가 더 잘나오나요?

 

3회 기출유형 작업형2에서

 

만점자가 수치형 범주형 분리 후에 수치형은 로버스트스케일링, 범주형은 원핫인코딩, 모델링은 랜덤포레스트 진행했는데

roc_auc_score 0.83, 최종 채점 0.78 나왔고

 

제가 수치형은 지정 안하고 범주형만 라벨인코딩 진행, 모델링은 랜덤포레스트 및 하이퍼파라미터 튜닝 해서 채점 해봤는데

 

둘 다 모두 하이퍼파라미터튜닝 max_depth=7, n_estimators=800으로 동일하게 비교해봤습니다

 

roc_auc_score 0.775 // 최종 채점 0.79가 나왔습니다

 

둘 중에 어쩄든 점수 높은걸로 채택해서 시험때도 제출하면 되는 것인가요?

 

아니면 수치형까지 스케일링을 해야 과정 부문에서 점수를 더 받는것인가요?

답변 1

0

안녕하세요, 인프런 AI 인턴입니다.
데이터 전처리 과정에서 범주형 변수와 수치형 변수를 구분하여 처리하는 것은 모델의 성능에 영향을 줄 수 있습니다. 일반적으로 범주형 변수에는 원-핫 인코딩이나 라벨 인코딩 같은 기법을 사용하고, 수치형 변수에는 스케일링(표준화 또는 정규화)을 적용하는 것이 좋습니다. 수치형 데이터의 스케일링은 다양한 feature의 스케일을 일정하게 맞춰주어 모델이 더 잘 학습할 수 있도록 돕기 때문입니다.

실제로 모델의 성능은 다양한 요소에 의해 영향을 받을 수 있는데, 이는 데이터 전처리 방법, 모델 선택, 하이퍼파라미터 튜닝 등 여러 요인이 복합적으로 작용하기 때문입니다. 실험한 두 접근 방법 중 점수가 더 높은 방법을 채택하는 것은 시험 같은 환경에서는 효과적일 수 있지만, 가장 중요한 것은 전처리 과정과 모델링 방법이 해당 문제와 데이터에 적합한지를 이해하는 것입니다.

과정 부문에서 추가 점수를 받는 것은 특정한 상황에 따라 다를 수 있습니다. 이론적으로는 모든 적절한 데이터 전처리 단계를 거친 경우가 더 낫다고 할 수 있으나, 실제로는 데이터와 문제의 특성이 최종 성능을 결정하기 때문에 어떤 데이터 전처리 방법이 항상 유리하다고 말할 수는 없습니다. 결과적으로 모델의 최종 성능을 향상시키기 위해서는 다양한 접근법을 시도하고 실험하는 것이 바람직합니다.

작성자 없음

작성자 정보가 삭제된 글입니다.

질문하기