inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(ver. 2023)

레이블인코딩 합쳐서 하는 기준 판단

해결된 질문

226

joy10780

작성한 질문수 28

0

안녕하세요!

set 방법이 이제 생각나서 다시 돌아와서 보고 있습니다.

 

  1. set으로 확인하는 과정은 EDA에서 해주는게 맞죠?


  2. a = set(train['object컬럼명'].unique())


    b = set(test['object컬럼명'].unique())


    이렇게 정의 해주었을때
    test에 있는데 train에 없는 경우만 예외경우로 합쳐서 레이블 인코딩 해줘야하니
    print(b-a) 만 해주면 되는거 맞죠? (굳이 a-b는 안해줘도되나 싶어서요)
    이 값이 어떤 값이 나오면 합쳐서 레이블 인코딩 해주고 분리해주는거구요!

    1. 만약 합친 다음에 레이블 인코딩 해줘야한다면
      <전처리 단계>

      target = train.pop('타겟컬럼')
      from sklearn.preprocessing import LabelEncoder
      cols = train.select_dtypes(include='object').columns
      df = pd.concat([train,test])
          for col in cols:
              le = LabelEncoder()
              df[col] = le.fit_transform(df[col])
      train = df.iloc[:len(train)]
      test = df.iloc[len(train):]

    이 순서대로 진행하면될까요?


  3. 마지막으로 합쳐서 레이블 인코딩 할때 object 컬럼이 여러개 있다면 (예를들어 6개가 object 컬럼이라면) 6개중 단 하나의 object 컬럼이라도 print(b-a) 했을때 값이 나온다면 합쳐서 레이블 인코딩 후 분리해주는거 맞죠?



python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

0

퇴근후딴짓

  1. 네!

  2. 네 맞습니다. 잘 준비하셨네요

  3. 2번으로 푼다면 3번 확인할 필요가 없습니다.

질문 드립니다.

0

38

2

강의 내용 관련 질문드립니다~

0

35

2

수강 연장 문의

0

33

1

강의자료 일괄 다운로드

0

43

2

수강기간 연장 문의드립니다

0

29

1

list 문제 질문드립니다~

0

31

2

빅분기 실기 12회 재도전

0

40

1

강의 기간 연장 가능여부 검토 요청건

0

30

1

수강기간 연장 문의 드립니다

0

36

2

수강기간 연장 문의드립니다

0

47

2

질문이요

0

51

2

수강기간 연장 문의드립니다.

0

50

2

문제 3-2 질문드립니다

0

44

2

수강기간 연장 문의 드립니다.

0

58

2

변수, 칼럼 , df 구분

0

50

2

수강기간 연장 문의드립니다.

0

50

2

수강기간 연장 문의

0

48

2

수강기간 연장 문의드립니다.

0

42

2

수강기한 연장 문의

0

80

2

수강기간 연장 문의드립니다

0

57

2

결정트리에서 적절한 깊이 선택 후 시각화 과정에서 학습 데이터만 사용하는 이유

0

45

2

수강기간 연장 문의드립니다.

0

71

2

수강연장 문의

0

77

2

수강연장문의

0

53

2