작업형2번 질문사항

Question

수치형 변수 스케일링은 굳이 안해도 된다고 하셨고, 범주형 변수 처리 시, target = train.pop(' '), pd.get_dummies(train), pd.get_dummiest(test) 처리하고 분리한 데이터 다시 합침을 진행하지 않아도 되나요? 작업형 2 한가지 방법으로 풀기 영상을 봤을 땐 그랬어서 문의드립니다.

퇴근후딴짓 · Answer

네, 그렇게 지금까지 기출에서는 문제가 없었어요! 다만 문제가 조금 어렵게 출제가 되었을 때를 준비하는거에요! 예를 들어, 예시문제 처럼 범주형 변수 카테고리 수가 다를 경우엔 각각 인코딩하면 컬럼의 수가 달라지게 됩니다.

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. personal_92님. 수치형 변수 스케일링의 경우, 반드시 필요한 것은 아닙니다. 특히 트리 기반의 모델(예: 랜덤포레스트, XGBoost 등)을 사용할 때는 스케일링이 모델 성능에 큰 영향을 미치지 않는 경우가 많습니다. 따라서, 모델의 특성을 고려하여 선택적으로 사용하시면 됩니다. 범주형 변수 처리 관련해서 말씀드리자면, pd.get_dummies(train) 과 pd.get_dummies(test) 로 각각 처리하는 방식도 가능합니다. 하지만 train 과 test 데이터 세트를 합쳐서 인코딩 후, 다시 분리하는 방법은 범주가 고정된 데이터(각 범주의 수가 동일한 경우)를 보장할 수 있어 많이 사용됩니다. 이를 통해 원핫 인코딩된 컬럼들이 일치하여 모델에 적용 가능한 형태로 처리할 수 있습니다. 비슷한 질문을 다루는 게시물이 있어서 공유드립니다: 4회 작업형 2번 풀이 질문있습니다. 에서는 수치형 데이터 스케일링과 범주형 인코딩에 관한 방법과 주의할 점을 설명하고 있습니다. 특히, 트리 기반 모델 사용 시 스케일링의 필요성에 대한 논의가 있습니다. 또한, 작업형 2. 스케일링 질문 은 스케일링과 인코딩의 순서를 다룹니다. 수치형과 범주형 처리를 혼합하여 사용할 때의 유의점을 참고해 보세요. 이 방법들은 강의 영상 및 제공 자료를 바탕으로 구성된 사항이니, 개인 공부 시 참고하시길 바랍니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.