원핫 인코딩 시

Question

cols = train.select_dtypes(include = 'object').columns # print(train.nunique()) # train.info() all_df = pd.concat([train,test]) all_df = pd.get_dummies(all_df[cols], drop_first = True) line = int(train.shape[0]) train = all_df.iloc[:line] test = all_df.iloc[line:] 원핫 인코딩 시 cols로 object 항목들 불러올때 train.select_dtypes(include = 'object').columns 로 써도 되나요? 강의에서는 list(train.columns[train.dtypes == object])로 불러왔는데, 두개 다 외우기는 힘들어서 하나만 가지고 가려고 하거든요.

퇴근후딴짓 · Answer

네 하나만 사용할 줄 알면됩니다. 직접 컬럼명을 입력해도 됩니다. cols =[ 직접 입력 ]

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 김치현님. 원핫 인코딩을 위해 object 타입의 컬럼을 선택할 때, 두 가지 방법을 사용할 수 있습니다: train.select_dtypes(include='object').columns : 판다스의 select_dtypes 메소드를 사용하여 데이터프레임에서 특정 dtype(데이터 타입)을 가진 컬럼들을 선택합니다. 인자로 'object' 를 주어 object 타입의 컬럼들을 선택할 수 있습니다. 이 방법은 직관적이고 짧은 코드로 해당 유형의 컬럼을 선택할 수 있어 많이 사용됩니다. list(train.columns[train.dtypes == object]) : 모든 컬럼의 데이터 타입을 체크한 뒤, object 타입인 컬럼들만 선택합니다. 리스트 형태로 object 타입 컬럼을 얻을 수 있습니다. 다소 길게 느껴질 수 있지만, 기본적인 파이썬 리스트와 데이터프레임의 속성 활용을 이해하는 데 도움이 되는 방법입니다. 결론적으로, 김치현님께서 편하신 방법 하나를 선택하여 사용하시면 됩니다. 하지만 일반적으로 간결하고 직관적인 첫 번째 방법인 select_dtypes 를 사용하는 것을 추천드립니다. 특히 데이터 타입 검증을 한 번에 처리할 수 있어 보다 명확하고 코드의 가독성이 높아지기 때문입니다. 비슷한 질문에 대한 다른 사람들의 논의도 살펴보시기 바랍니다: 원핫인코딩 시 세부적인 차이를 알고 싶어요 pd.get_dummies() 효과적인 사용 사례 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.