작업형 2번, 수치형 변수 스케일링 굳이 해줘야 하나요?

Question

작업형 2유형 문제 궁금한게 있습니다. 수치형 변수 스케일링을 하셨는데, 시험에서도 저 코드를 꼭 써야 하나요? 저거를 임의로 판단을 해서 하는건가요? (마지막에 성능 지표로 확인해서 임의 판단인지) 아니면 시험장에서도 문제에서 명시가 되어있는걸까요? 혹여나, 문제에서 명시 되어 있지 않는데 굳이 저걸 했다가 감점을 받지 않나 해서요 저걸로 가점이 된다면, 항상 모든 문제에 수치형 변수 스케일링을 추가 해줘야 하는거 아닌가요? 왜 문제 마다 수치형 스케일링을 해주는 경우도 있고 아닌 경우도 있고.... 이해가 안갑니다 그리고 RobustScaler를 적용 하셨는데, MinMaxScaler로 해도 되나요? (다른 수치형 스케일링을 써도 되는지 여쭤봅니다) 그리고 하이퍼 파라미터도 문제에 명시 안되어있는데, 저것도 임의 판단해서 쓰는건지 궁금하네요. 시험 문제에는 저렇게 간략하게 나오는건가요? 문제에서 딱.. 하이퍼파라미터 적용.. 수치형 스케일링 적용... 이렇게 나오는게 아닌걸까요?? 너무 추상적이에요... 만약 저렇게 추상적이게 나온다면, 임의로 성능 지표를 확인해가며, 수치형이 있다면 스케일링을 적용해보고, 하이퍼 파라미터가 성능 지표가 높게 나온다면 적용해보고... 이렇게 해야하는건가요? (외람된 질문이지만, 성능 지표가 너무 높게 나와도 안좋은거 아닌가요? 과적합 문제라던지요..)

퇴근후딴짓 · Answer

안녕하세요! 정리해 드릴게요! 인코딩 -> 문자가 있다면 인코딩 반드시 필요함 (필수) 스케일링 -> 하지 않아도 됨! (다만 방법은 알아야해요 작업형1에서 문제로 출제되기도 함) why? 트리 계열 (DecisionTree, RandomForest, XGBoost, LightGBM 등)은 피처 스케일에 둔감 → 굳이 안 해도 됨. 하이퍼파라미터 튜닝 -> 하지 않아도 됨! why? 모델 성능을 높이기 위한 방법인데, 사용하지 않아도 40점에 문제가 없었어요! 생각보다 40점 구간이 넒었음. 초보자의 경우 잘못된 숫자값으로 문제를 발생시키기도 함 어떤 방식의 인코딩/스케일링을 사용하는 것은 수험생 자유입니다. 문제에서는 예측하라고 나오지 전처리 방법이나 모델을 지정하지 않아요! 작업형2 시험문제: https://dataq.goorm.io/exam/3/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%EC%B2%B4%ED%97%98/quiz/4%3Fembed 작업형1/3은 정답이 있지만 작업형2는 평가지표로 구간을 평가합니다. 모든 결과는 검증데이터(약 20%)의 점수로 판단해 주세요! 과적합은 하이퍼파라미터 손대지 않는다면 시험에서는 신경쓰지 않으셔도 됩니다. 화이팅입니다.

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. JunSuPark님께서 문의하신 작업형 2번의 수치형 변수 스케일링 관련 질문에 대해 답변드리겠습니다. 작업형 문제에서 수치형 변수 스케일링은 선택 사항입니다. 스케일링은 데이터의 특성 및 사용하는 모델의 종류에 따라 필요할 수도 있고, 그렇지 않을 수도 있습니다. 일반적으로 트리 계열의 모델(예: 랜덤 포레스트, 결정 트리)에서는 수치형 변수 스케일링이 필수적이지 않습니다. 반면, 거리 기반 모델(예: KNN, SVM)에서는 스케일링이 모델 성능에 큰 영향을 미칠 수 있습니다. 수치형 변수 스케일링 여부 : 시험에서 스케일링 적용 여부는 문제지의 지시에 따르지만, 명시되지 않는다면 성능 지표(예: 정확도, 정밀도, 재현율 등)를 기준으로 판단할 수 있습니다. 모든 문제에 스케일링을 추가할 필요는 없습니다. 스케일러 선택 : RobustScaler , MinMaxScaler , 또는 StandardScaler 등을 자유롭게 사용할 수 있습니다. 스케일러의 선택은 데이터의 특성에 따라 달라질 수 있습니다. 예를 들어, 이상치에 민감한 데이터를 다룰 때는 RobustScaler 가 유리할 수 있습니다. 하이퍼파라미터 설정 : 하이퍼파라미터 튜닝 역시 시험 문제에 명시되어 있지 않은 경우에 자신이 학습한 바에 따라 최적의 설정을 찾아가는 과정입니다. 하이퍼파라미터 튜닝은 일반적으로 성능을 향상시키기 위한 방법으로, 성능 지표를 기반으로 판단합니다. 하지만 과적합 문제가 발생할 수 있으므로, 교차 검증 등 추가적인 평가 방법을 통해 과적합 여부를 확인하는 것이 좋습니다. 시험 문제의 추상적 표현 : 시험 문제는 명확한 지시 없이 추상적으로 나올 수 있으며, 이 경우 현명한 판단으로 전처리 및 모델 최적화를 수행해야 합니다. 과적합 문제를 방지하기 위해 교차 검증을 활용하는 것이 추천됩니다. 아래 링크에서 수치형 변수 스케일링과 전처리 관련된 정보를 확인하실 수 있습니다. 유사한 질문들을 통해 추가적인 이해를 돕길 바랍니다. 3회 빅데이터 분석기사 실기(작업형2) 질문 수치형 변수 스케일링 하기 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.