원핫인코딩 코드 질문

Question

작업형2 모의문제2 11분12초의 레이블인코딩이 아닌 원핫인코딩으로 변경하는 코드에 대해서 질문드립니다. 만약 원핫인코딩으로 진행하려면 아래와 같이 코드를 작성하면 될까요? # 원핫인코딩 train = train.drop('price', axis = 1) train = pd.get_dummies(train) test = pd.get_dummies(test) 그리고 원핫인코딩으로 변경하면 검증데이터 분리 과정에서 코드를 어떻게 수정해야하나요?(.pop()을 사용해서 'price' 컬럼을 따로 변수에 저장한 후에 target 부분에 넣어야할까요?) X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 0 )

퇴근후딴짓 · Answer

네 맞습니다. 타겟을 먼저 분리하고 작업하면 됩니다. 정확합니다. 네, 전체 흐름을 합쳐서 정리하면 아래와 같습니다. 그리고 카테고리가 달라 합쳐야 하는 상황이 생긴다면 아래 처럼 합칠 수 있습니다. 방법 1 - train/test 합친 후 원핫인코딩 후 분리 # price 컬럼 먼저 저장 target = train.pop('price') # train/test 합치기 n_train = len(train) data = pd.concat([train, test], axis=0) # 원핫인코딩 data = pd.get_dummies(data) # 다시 분리 train = data.iloc[:n_train] test = data.iloc[n_train:] # 검증데이터 분리 X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) 방법 2 - 원핫인코딩 후 컬럼 맞추기 # price 컬럼 먼저 저장 target = train.pop('price') # 원핫인코딩 train = pd.get_dummies(train) test = pd.get_dummies(test) # train/test 컬럼 수 맞추기 train, test = train.align(test, join='left', axis=1, fill_value=0) # 검증데이터 분리 X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. HOJUN CHOI님. 원핫 인코딩을 수행할 때에는 pd.get_dummies() 함수를 사용하여 범주형 데이터를 이진화된 형태로 변환할 수 있습니다. 질문하신 코드에서 몇 가지 수정이 필요할 수 있습니다. 원핫 인코딩 코드 설명 pd.get_dummies() 함수의 사용 방식 : 이 함수는 주어진 데이터프레임의 범주형 컬럼을 원핫 인코딩하여 반환합니다. 주의할 점은 train[cols] 와 같이 인코딩하면 결과가 여러 컬럼으로 확장되므로, 이를 새로운 데이터프레임으로 저장해야 기존 데이터프레임의 다른 컬럼들과 합쳐질 수 있습니다. 인코딩 컬럼 지정 : 원래 코드에서는 train[cols] = pd.get_dummies(train[cols]) 을 사용하셨는데, 이 경우 기존 데이터프레임의 다른 수치형 컬럼이 손실될 수 있습니다. 데이터프레임에 한 번에 통합하여 적용하려면 아래와 같은 형태로 진행하는 것이 좋습니다. 수정된 코드 제안 train = pd.concat([train.drop(cols, axis=1), pd.get_dummies(train[cols])], axis=1) test = pd.concat([test.drop(cols, axis=1), pd.get_dummies(test[cols])], axis=1) 코드 설명 train.drop(cols, axis=1) : 기존의 범주형 컬럼을 삭제합니다. pd.get_dummies(train[cols]) : 인코딩된 새로운 컬럼 세트를 만듭니다. pd.concat([...], axis=1) : 삭제된 기존의 컬럼 대신 인코딩된 컬럼이 추가된 데이터를 생성합니다. 이 코드를 사용하면 데이터프레임 내의 다른 수치형 및 비인코딩 컬럼을 보존하면서 범주형 컬럼에 대해 원핫 인코딩을 수행할 수 있습니다. 아래 유사한 질문과 답변에서 좀 더 효과적인 방법 및 다양한 시각을 확인하실 수 있습니다: - 원핫인코딩에 관해서 질문이 있습니다! - pd.get_dummies(train[cols])와 (train, columns=cols) 차이가 궁금합니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.