작업형 2번 풀이과정 질문입니다.

Question

전처리, 피처엔지니어링 할 때, 언제 무엇을 해야할지 헷갈립니다. 가령 데이터가 어떨 때, 어떤 것을 스케일링 해야하는지 헷갈립니다. 기출문제 풀이에서 스케일링을 한 경우도 있고, 안 한 경우도 있다보니 정리가 잘 안되는 느낌입니다. get_nc_data로 n과 c를 나눴다가 다시 concat으로 합친 경우가 있는가 하면, 어떤 회차에서는 그냥 스케일링도 없이 원핫인코딩만 해버리는 경우도 있어서, 언제 어떤 방식으로 전처리를 해야할지 감이 잘 안옵니다. 저런 기준을 잘 모르겠습니다. 또, target열을 value_counts()하는 것은 알겠는데, 어떤 회차에서는 또 이것을 pop하기도 해서, 어떨때 pop을 하는 것인지도 분간이 잘 안갑니다ㅠ 로그, 지수 수치 변환도, 수치형 데이터가 어떨 때 하고 어떨 때 안하는지 헷갈립니다.

퇴근후딴짓 · Answer

문제 데이터가 어떻게 출제 될지 모르고, 1가지 방법으로만 준비했다가 40점을 날리는 일이 절대 없도록 다양한 전처리 방식을 보여 드리고자 했어요~!! 당장 시험이 이번 주라 우선은 "기출(작업형2) 한 가지 방법으로 풀기 🆕 updated 2024.6" 이 강의를 먼저 봐주시겠어요? 원하는대로 1가지 방법으로만 풀이하고 있어요! 로그 변환 -> 하지 마세요 스케일링 -> 선택 (이미 숫자 데이터임) 인코딩 -> 필수 (문자라 숫자 변환 필요) 남은 기간동안 좀 더 시간을 투자해주세요!!

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 질문 내용을 통해, 데이터 전처리와 피처 엔지니어링 과정에서 수행해야 할 작업들에 관한 구체적 기준에 대해 혼란을 느끼고 계신 것 같습니다. 특히 언제 스케일링을 진행해야하고, 원핫인코딩을 적용해야 하는지, 그리고 타겟 변수의 처리 방법에 대한 질문이 있으신 것으로 보입니다. 각 명시된 점들에 대한 질문을 바탕으로 유사한 답변 링크 세 개를 제공해드립니다. 이 답변들은 데이터 전처리시 타겟값의 종류에 따른 처리 방법과, 범주형 및 수치형 데이터의 처리 방법에 대한 설명을 포함하고 있습니다. 데이터 전처리시 궁금점! 이 답변에서는 범주형 데이터와 수치형 데이터를 언제 어떻게 처리하는지에 대한 기준을 설명하고 있습니다. 특히, 범주형 데이터인 경우 라벨이나 원핫 인코딩을 적용하고, 수치형 데이터의 경우 민맥스 스케일러나 z스케일러를 적용하는 일반적인 원칙에 대해 설명합니다. 피처 엔지니어링 전체 과정 데이터를 전처리하고 피처 엔지니어링 할 때의 전반적인 과정에 대한 설명입니다. 이 질문에 대해 작성된 답변은 데이터 전처리 시 결측값과 이상값을 처리하는 방법, 수치형 및 범주형 변수의 처리 방법에 대해 잘 정리되어 있습니다. 4회 작업형 2번 풀이 질문있습니다. 명시적으로 데이터 전처리 과정에서의 다양한 접근과 스케일링 및 인코딩 방법의 적용에 대한 질문에 답변을 제공합니다. 또한, 학습 데이터를 이용한 모델 평가의 중요성에 대해서도 언급합니다. 이들 답변에서는 범주형 및 수치형 데이터의 전처리 방법, 스케일링 및 인코딩 적용 시점과 기준, 그리고 타겟변수 처리 방안에 대한 구체적인 지침을 제공합니다. 전처리 방법은 해당 데이터의 특성과 모델의 요구사항에 따라 달라질 수 있음을 이해하는 것이 중요합니다. 또한, 전처리 과정에서 데이터를 이해하고 문제의 요구사항을 정확히 파악하는 것이 중요하며, 기본적으로는 데이터 전처리시 결측치 처리, 이상치 탐색 및 처리, 스케일링 및 인코딩의 적용이 주요 작업으로 이루어집니다. 타겟 변수 처리는 분석 목표에 따라 달라질 수 있는데, 회귀 분석인 경우 연속형 수치의 타겟 값을 직접 사용하고, 분류 문제에서는 라벨 인코딩이나 원-핫 인코딩을 통해 범주형 타겟 변수를 처리합니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.