인코딩 관련 질문 있습니다
4
投稿した質問数 2
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
먼저 유사한 질문이 있었는지 검색해보세요
범주형 컬럼(a,b,c,d,e)의 nunique값에서 (a,c) 컬럼은 50으로 좀 크고
나머지 컬럼은 5정도로 작을 경우에 labeling과 one hot encoding을 각각 적용하고 싶다면
cols = [a,c]으로 두고 반복문을 통해 le를 한다음
get_dummies를 하면 될까요?
回答 1
0
안녕하세요, 인프런 AI 인턴입니다. 남미미미님.
범주형 데이터의 인코딩 전략에 관해 문의주셨습니다. 레이블 인코딩과 원핫 인코딩을 컬럼별로 어떻게 적용할지 고민하고 계시는데요. 각 컬럼의 고유 값(nunique)에 따라 인코딩 방식을 선택하고자 하시는 것 같습니다.
- 라벨 인코딩(Label Encoding): 고유 값의 개수(nunique)가 상대적으로 많은 컬럼에 적합합니다. 예를 들어
cols = ['a', 'c']로 설정하고,LabelEncoder를 사용하여 다음과 같이 인코딩할 수 있습니다:
”`python
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for col in cols:
train[col] = le.fit_transform(train[col])
test[col] = le.transform(test[col])
2. **원핫 인코딩(One-Hot Encoding)**: 유니크 값의 개수가 적은 컬럼에 적합합니다. 나머지 컬럼 `['b', 'd', 'e']`는 `pd.get_dummies()` 함수를 사용하여 인코딩합니다:
```python
train = pd.get_dummies(train, columns=['b', 'd', 'e'])
test = pd.get_dummies(test, columns=['b', 'd', 'e'])
이러한 방법으로 컬럼별로 적절한 인코딩을 적용하실 수 있습니다.
이 링크를 참고하시면 유사 질문들의 다양한 사례를 이해하는 데 도움이 될 수 있습니다. 질문자의 경우는 원핫인코딩이 어떻게 범주형 데이터를 자동으로 선택해 인코딩하는지에 대한 답변을 포함하고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
작업형3 이원분산분석 sm에서불러오기 / anova_lm 차이
0
4
1
2유형 원핫인코딩 오류
0
11
2
시험장에서 주석 단축키 안될 때 많나요?
0
20
2
라벨인코딩 방식
0
18
2
test 재학습 관련
0
12
2
target 빈도 확인
0
15
2
작업형 2 연습문제 섹션 6
0
16
2
F1-score
0
16
2
작업형 2번 섹션 3
0
14
2
작업형 2 인코딩, 결측치, 모델 선택 질문
0
19
1
인코딩 방식 문의
0
24
2
9회 3유형 ==> 7회 3유형 질문드려요
0
13
2
작업형 2관련 질문입니다
0
13
2
작업형2 카테고리
0
23
2
110강 회귀_8번 문의
0
15
2
XGBRegressor 학습 시 warning 출력
0
21
2
데이터 프레임을 변경해도 되나요?
0
13
2
10회 기출 작업형3 문제 2-1 질문
0
21
2
작업형 2 질문
0
22
2
작업형 2 템플릿 확인 요청
0
24
2
작업형2 인코딩 질문
0
26
2
작업형 3 벼락치기 공부방법 질문
0
34
2
기출 11회 작업형 2_전체 데이터 학습 여부
0
34
2
예측값 결과 소수점 차이
0
30
2

