인프런 커뮤니티 질문&답변
작업형 2번, 수치형 변수 스케일링 굳이 해줘야 하나요?
작성
·
9
0
작업형 2유형 문제 궁금한게 있습니다.
수치형 변수 스케일링을 하셨는데, 시험에서도 저 코드를 꼭 써야 하나요?
저거를 임의로 판단을 해서 하는건가요? (마지막에 성능 지표로 확인해서 임의 판단인지) 아니면 시험장에서도 문제에서 명시가 되어있는걸까요?
혹여나, 문제에서 명시 되어 있지 않는데 굳이 저걸 했다가 감점을 받지 않나 해서요
저걸로 가점이 된다면, 항상 모든 문제에 수치형 변수 스케일링을 추가 해줘야 하는거 아닌가요?
왜 문제 마다 수치형 스케일링을 해주는 경우도 있고 아닌 경우도 있고.... 이해가 안갑니다
그리고 RobustScaler를 적용 하셨는데, MinMaxScaler로 해도 되나요? (다른 수치형 스케일링을 써도 되는지 여쭤봅니다)
그리고 하이퍼 파라미터도 문제에 명시 안되어있는데, 저것도 임의 판단해서 쓰는건지 궁금하네요.
시험 문제에는 저렇게 간략하게 나오는건가요?
문제에서 딱.. 하이퍼파라미터 적용.. 수치형 스케일링 적용... 이렇게 나오는게 아닌걸까요??
너무 추상적이에요...
만약 저렇게 추상적이게 나온다면, 임의로 성능 지표를 확인해가며,
수치형이 있다면 스케일링을 적용해보고,
하이퍼 파라미터가 성능 지표가 높게 나온다면 적용해보고... 이렇게 해야하는건가요?
(외람된 질문이지만, 성능 지표가 너무 높게 나와도 안좋은거 아닌가요? 과적합 문제라던지요..)
답변 1
0
안녕하세요, 인프런 AI 인턴입니다. JunSuPark님께서 문의하신 작업형 2번의 수치형 변수 스케일링 관련 질문에 대해 답변드리겠습니다.
작업형 문제에서 수치형 변수 스케일링은 선택 사항입니다. 스케일링은 데이터의 특성 및 사용하는 모델의 종류에 따라 필요할 수도 있고, 그렇지 않을 수도 있습니다. 일반적으로 트리 계열의 모델(예: 랜덤 포레스트, 결정 트리)에서는 수치형 변수 스케일링이 필수적이지 않습니다. 반면, 거리 기반 모델(예: KNN, SVM)에서는 스케일링이 모델 성능에 큰 영향을 미칠 수 있습니다.
수치형 변수 스케일링 여부: 시험에서 스케일링 적용 여부는 문제지의 지시에 따르지만, 명시되지 않는다면 성능 지표(예: 정확도, 정밀도, 재현율 등)를 기준으로 판단할 수 있습니다. 모든 문제에 스케일링을 추가할 필요는 없습니다.
스케일러 선택:
RobustScaler,MinMaxScaler, 또는StandardScaler등을 자유롭게 사용할 수 있습니다. 스케일러의 선택은 데이터의 특성에 따라 달라질 수 있습니다. 예를 들어, 이상치에 민감한 데이터를 다룰 때는RobustScaler가 유리할 수 있습니다.하이퍼파라미터 설정: 하이퍼파라미터 튜닝 역시 시험 문제에 명시되어 있지 않은 경우에 자신이 학습한 바에 따라 최적의 설정을 찾아가는 과정입니다. 하이퍼파라미터 튜닝은 일반적으로 성능을 향상시키기 위한 방법으로, 성능 지표를 기반으로 판단합니다. 하지만 과적합 문제가 발생할 수 있으므로, 교차 검증 등 추가적인 평가 방법을 통해 과적합 여부를 확인하는 것이 좋습니다.
시험 문제의 추상적 표현: 시험 문제는 명확한 지시 없이 추상적으로 나올 수 있으며, 이 경우 현명한 판단으로 전처리 및 모델 최적화를 수행해야 합니다. 과적합 문제를 방지하기 위해 교차 검증을 활용하는 것이 추천됩니다.
아래 링크에서 수치형 변수 스케일링과 전처리 관련된 정보를 확인하실 수 있습니다. 유사한 질문들을 통해 추가적인 이해를 돕길 바랍니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





