inflearn logo
강의

講義

知識共有

[仕事終わりの趣味] ビッグデータ分析実技 (作業型1,2,3)

第4回 既出問題タイプ(作業型2)

인코딩 관련 질문 있습니다

4

gangin02184300

投稿した質問数 2

0

 

범주형 컬럼(a,b,c,d,e)의 nunique값에서 (a,c) 컬럼은 50으로 좀 크고

나머지 컬럼은 5정도로 작을 경우에 labeling과 one hot encoding을 각각 적용하고 싶다면

 

cols = [a,c]으로 두고 반복문을 통해 le를 한다음

get_dummies를 하면 될까요?

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

回答 1

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 남미미미님.

범주형 데이터의 인코딩 전략에 관해 문의주셨습니다. 레이블 인코딩과 원핫 인코딩을 컬럼별로 어떻게 적용할지 고민하고 계시는데요. 각 컬럼의 고유 값(nunique)에 따라 인코딩 방식을 선택하고자 하시는 것 같습니다.

  1. 라벨 인코딩(Label Encoding): 고유 값의 개수(nunique)가 상대적으로 많은 컬럼에 적합합니다. 예를 들어 cols = ['a', 'c']로 설정하고, LabelEncoder를 사용하여 다음과 같이 인코딩할 수 있습니다:
    ”`python
    from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
for col in cols:
train[col] = le.fit_transform(train[col])
test[col] = le.transform(test[col])


2. **원핫 인코딩(One-Hot Encoding)**: 유니크 값의 개수가 적은 컬럼에 적합합니다. 나머지 컬럼 `['b', 'd', 'e']`는 `pd.get_dummies()` 함수를 사용하여 인코딩합니다:
   ```python
   train = pd.get_dummies(train, columns=['b', 'd', 'e'])
   test = pd.get_dummies(test, columns=['b', 'd', 'e'])

이러한 방법으로 컬럼별로 적절한 인코딩을 적용하실 수 있습니다.

이 링크를 참고하시면 유사 질문들의 다양한 사례를 이해하는 데 도움이 될 수 있습니다. 질문자의 경우는 원핫인코딩이 어떻게 범주형 데이터를 자동으로 선택해 인코딩하는지에 대한 답변을 포함하고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

작업형3 이원분산분석 sm에서불러오기 / anova_lm 차이

0

4

1

2유형 원핫인코딩 오류

0

11

2

시험장에서 주석 단축키 안될 때 많나요?

0

20

2

라벨인코딩 방식

0

18

2

test 재학습 관련

0

12

2

target 빈도 확인

0

15

2

작업형 2 연습문제 섹션 6

0

16

2

F1-score

0

16

2

작업형 2번 섹션 3

0

14

2

작업형 2 인코딩, 결측치, 모델 선택 질문

0

19

1

인코딩 방식 문의

0

24

2

9회 3유형 ==> 7회 3유형 질문드려요

0

13

2

작업형 2관련 질문입니다

0

13

2

작업형2 카테고리

0

23

2

110강 회귀_8번 문의

0

15

2

XGBRegressor 학습 시 warning 출력

0

21

2

데이터 프레임을 변경해도 되나요?

0

13

2

10회 기출 작업형3 문제 2-1 질문

0

21

2

작업형 2 질문

0

22

2

작업형 2 템플릿 확인 요청

0

24

2

작업형2 인코딩 질문

0

26

2

작업형 3 벼락치기 공부방법 질문

0

34

2

기출 11회 작업형 2_전체 데이터 학습 여부

0

34

2

예측값 결과 소수점 차이

0

30

2