🤍 전 강의 25% 할인 중 🤍

2024년 상반기를 돌아보고 하반기에도 함께 성장해요!
인프런이 준비한 25% 할인 받으러 가기 >>

  • 카테고리

    질문 & 답변
  • 세부 분야

    자격증 (데이터 사이언스)

  • 해결 여부

    해결됨

기출 3회 작업형 2 수치형/범주형 분리

24.05.24 13:11 작성 조회수 56

1

기출 3회 작업형 2에서

 

피처엔지니어링 전 df.select_dtypes(exclude = "o").copy() .... 로 트레인 데이터와 테스트 데이터를 수치와 범주형으로 나눈 후

  1. 수치형 MinMaxScaler

  2. 범주형 원핫인코딩으로 각각 피처링을 하셨는데

이때 수치형을 보면 cols = ["A", "B"...]로 오브젝트형을 지정하셨더라구요.

 

피처엔지니어링때 cols =[ ] 를 별도 지정하더라도 위 데이터를 나누는 과정이 필수일까요??

 

아래처럼 해도 되면 concat도 필요없을거 같아서요.

예) df.select_dtypes(exclude = "o").copy() << 이과정없이

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

cols = ['Age', 'FamilyMembers']

train[cols] = scaler.fit_transform(train[cols])

test[cols] = scaler.transform(test[cols])

 

from sklearn.preprocessing import LabelEncoder

cols = ['Nationality']

for col in cols:

le = LabelEncoder()

train[col] = le.fit_transform(train[col])

test[col] = le.transfrom(test[col])

답변 2

·

답변을 작성해보세요.

0

기출 3회만 범주형과 수치형을 나눠 풀이를 했고 나머지 기출은 나누지 않고 풀이 했습니다.

 

말씀한대로

좀 더 쉬운 나누는 과정없이 풀이하는 방식을 추천합니다!! 💪💪💪

정확히 이해하고 비교하신 것 같아요!! 응원합니다.

0

인프런 AI 인턴님의 프로필

인프런 AI 인턴

2024.05.24

안녕하세요, 인프런 AI 인턴입니다.

질문하신 내용에 대해, “[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)” 강의와 관련된 유사한 문의에 대한 답변을 찾았습니다. 질문의 핵심은 데이터 전처리 과정에서 수치형과 범주형 데이터를 별도로 분리하여 처리하는 절차의 필요성에 대한 것으로 보입니다.

햇갈리실 수 있는 부분은 데이터 전처리에 있어서 여러 접근 방식이 가능하다는 점입니다. 특히, 수치형과 범주형 데이터를 분리하여 처리하는 단계는 데이터의 특성을 고려한 전처리를 용이하게 하기 위한 일반적인 접근 방식 중 하나입니다. 하지만, 모든 경우에 필수적인 과정은 아닙니다. 실제 활용상에서는 데이터의 특성과 처리 목적에 따라 적절한 전처리 방법을 선택하는 것이 중요합니다.

다음은 이와 관련된 답변의 일부입니다:

작업형2 기출문제 3회 질문

고혜빈 님의 질문에서는 수치형과 범주형 데이터를 분리하여 처리하는 과정의 필요성에 대해 물었고, 강의자는 모든 과정을 분리하지 않고 전처리할 수 있다고 답변했습니다. 특히, 기출 3회의 경우 분리하지 않고 데이터를 그대로 사용할 수 있음을 강조하였습니다.

관련 답변 요약:

  • 데이터 분리 없이 진행할 수 있음을 확인하였습니다.
  • [train.select_dtypes(include="O").columns] 같은 방법을 사용하여 자동으로 범주형 컬럼을 선택할 수 있음을 언급하였습니다.
  • 나누어 처리할 때와 다르게, 전체 데이터를 한 번에 처리하는 것이 가능하다고 설명했습니다.

이러한 점을 고려할 때, 귀하의 전처리 방식에 있어서 직접적으로 수치형과 범주형 데이터를 분리하지 않고, 필요한 컬럼만 선택하여 전처리하는 것도 가능함을 알 수 있습니다. 특히 수치형 데이터의 MinMaxScaler 적용 및 범주형 데이터의 LabelEncoder 적용 과정을 봤을 때, 분리 없이 직접 전처리하는 접근 방식이 충분히 타당하고, 상황에 따라서는 더 효율적일 수 있습니다.

질문하신 내용에 대해 제시된 참고 링크 및 기존 답변 내용이 도움이 되시길 바랍니다. 데이터 전처리 방법은 다양하므로, 프로젝트의 특성과 요구 사항에 맞게 적절한 전처리 접근 방식을 선택하는 것이 중요합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

채널톡 아이콘