인프런 커뮤니티 질문&답변

doob147님의 프로필 이미지
doob147

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

데이터 분리 질문

해결된 질문

작성

·

74

0

시험시 label 인코딩으로 문제를 풀려고 하는데요 데이터가 수치형, 범주형 나눠져있을때 ,

  1. n_train = train.select_dtypes(exclude ='object').copy()

n_test = test.select_dtypes(exclude ='object').copy()

c_train = train.select_dtypes(include ='object').copy()

c_test = test.select_dtypes(include ='object').copy()

이렇게 나눈후 n_ train과 n_test에는 scaling,

c_train과 c_test에는 label 인코딩한 후 pd.concat으로 합치는것과

 

  1. cols = ['수치형 데이터 컬럼 선택']

수치형 데이터 스케일링,

cols = ['범주형 데이터 컬럼 선택']

for i in cols

범주형 데이터 라벨 인코딩

 

1번과 2번에 차이가 있을까요? 어떤경우에 어떤것을 사용해야 하나요?

또 , 2번 방법 사용시 cols 의 이름을 수치형,범주형 각각 다르게 사용하여 컬럼 지정후

추후에 합쳐야하나요?

답변 1

1

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

당장 내일 시험이기에 익숙한 것이 있다면 그것으로 하시고

 

아니라면 2번으로 준비하시죠!

순차적으로 진행하기 때문에 cols 동일한 변수로 덮어서 사용해도 됩니다.

2번 방법은 합칠 이유는 없습니다. df[cols]로만 컬럼을 선택해서 진행하면 됩니다.

 

또한 스케일링이 어렵다면 생략해도 됩니다. 인코딩만 잘 진행해 주세요!

 

 

doob147님의 프로필 이미지
doob147

작성한 질문수

질문하기