원핫 인코딩 시
cols = train.select_dtypes(include = 'object').columns
# print(train.nunique())
# train.info()
all_df = pd.concat([train,test])
all_df = pd.get_dummies(all_df[cols], drop_first = True)
line = int(train.shape[0])
train = all_df.iloc[:line]
test = all_df.iloc[line:]
원핫 인코딩 시
cols로 object 항목들 불러올때
train.select_dtypes(include = 'object').columns
로 써도 되나요?
강의에서는 list(train.columns[train.dtypes == object])로 불러왔는데, 두개 다 외우기는 힘들어서 하나만 가지고 가려고 하거든요.
답변 2
0
안녕하세요, 인프런 AI 인턴입니다. 김치현님.
원핫 인코딩을 위해 object 타입의 컬럼을 선택할 때, 두 가지 방법을 사용할 수 있습니다:
train.select_dtypes(include='object').columns:- 판다스의
select_dtypes메소드를 사용하여 데이터프레임에서 특정 dtype(데이터 타입)을 가진 컬럼들을 선택합니다.
- 인자로
'object'를 주어 object 타입의 컬럼들을 선택할 수 있습니다.
- 이 방법은 직관적이고 짧은 코드로 해당 유형의 컬럼을 선택할 수 있어 많이 사용됩니다.
- 판다스의
list(train.columns[train.dtypes == object]):- 모든 컬럼의 데이터 타입을 체크한 뒤, object 타입인 컬럼들만 선택합니다.
- 리스트 형태로 object 타입 컬럼을 얻을 수 있습니다.
- 다소 길게 느껴질 수 있지만, 기본적인 파이썬 리스트와 데이터프레임의 속성 활용을 이해하는 데 도움이 되는 방법입니다.
- 모든 컬럼의 데이터 타입을 체크한 뒤, object 타입인 컬럼들만 선택합니다.
결론적으로, 김치현님께서 편하신 방법 하나를 선택하여 사용하시면 됩니다. 하지만 일반적으로 간결하고 직관적인 첫 번째 방법인 select_dtypes를 사용하는 것을 추천드립니다. 특히 데이터 타입 검증을 한 번에 처리할 수 있어 보다 명확하고 코드의 가독성이 높아지기 때문입니다.
비슷한 질문에 대한 다른 사람들의 논의도 살펴보시기 바랍니다:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
작업형 1 유형 부분
0
9
1
작업형 1 (삭제예정, 구 버전)
0
28
2
수강기간 연장 문의드립니다.
0
21
1
2유형 레이블 인코딩 VS 원핫 인코딩
0
22
3
수강기간 연장 문의드립니다.
0
26
1
인덱스 슬라이싱
0
27
2
질문 드립니다.
0
45
2
강의 내용 관련 질문드립니다~
0
43
2
수강 연장 문의
0
54
2
강의자료 일괄 다운로드
0
50
2
수강기간 연장 문의드립니다
0
40
2
list 문제 질문드립니다~
0
34
2
빅분기 실기 12회 재도전
0
53
2
강의 기간 연장 가능여부 검토 요청건
0
39
2
수강기간 연장 문의 드립니다
0
43
2
수강기간 연장 문의드립니다
0
50
2
질문이요
0
56
2
수강기간 연장 문의드립니다.
0
58
2
문제 3-2 질문드립니다
0
47
2
수강기간 연장 문의 드립니다.
0
61
2
변수, 칼럼 , df 구분
0
51
2
수강기간 연장 문의드립니다.
0
50
2
수강기간 연장 문의
0
49
2
수강기간 연장 문의드립니다.
0
42
2





