Robustscaler 질문

Question

수치형은 robustscaler를 사용하려고 하는데여 from sklearn.preprocessing import RobustScaler scaler = RobustScaler() cols = x_train.select_dtypes(exclude='object') for col in cols: x_train[col] = scaler.fit_transform(x_train[col]) x_test[col] = scaler.transform(x_test[col]) 이렇게 하면 ,ValueError: Expected 2D array, got 1D array instead: array=[ 888. 1308. 151. ... 173. 1244. 893.]. Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample. 이런 오류가 납니다... 어떻게 수정해야 하나여

퇴근후딴짓 · Answer

우선 스케일링: 반복문 필요 없음 레이블인코딩: 반복문 필요함 반복문을 제거하고 col->cols로 컬럼을 한번에 입력하면 해결됩니다 왜 에러가 발생했냐면요 스케일링에 반복문을 적용하므로 col 이라는 컬럼 1개만 선택해서 입력값으로 넣었어요 컬럼 1개만 선택하면 자료형은 시리즈입니다 df[‘컬럼’] 그런데 사이킷런에서 제공하는 스케일링은 입력값으로 데이터프레임을 입력으로 받아요 컬럼 1개를 선택했을 때도 데이터프레임으로 만들려면 df[[‘컬럼’]] 이렇게 만들어줄 필요가 있어요

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 질문하신 "RobustScaler" 의 사용과 관련하여, 1차원 배열 대신 2차원 배열을 기대하는 오류에 대해 해결 방법을 안내드리겠습니다. 오류 메시지에서 언급한 것처럼, RobustScaler 는 2차원 배열을 입력으로 받습니다. 하지만 for 루프를 사용하여 컬럼을 하나씩 전달하게 되면, Pandas는 기본적으로 해당 컬럼을 1차원 배열로 반환합니다. 이를 해결하기 위해서는 각 컬럼을 2차원 배열의 형태로 전달해야 합니다. 다음과 같이 코드를 수정할 수 있습니다: from sklearn.preprocessing import RobustScaler scaler = RobustScaler() cols = x_train.select_dtypes(exclude='object').columns for col in cols: x_train[[col]] = scaler.fit_transform(x_train[[col]]) # 2차원 배열 형태로 변경 x_test[[col]] = scaler.transform(x_test[[col]]) # 2차원 배열 형태로 변경 이때 x_train[[col]] 의 형태는 Pandas의 DataFrame을 반환하므로 2차원 배열로 처리됩니다. fit_transform 과 transform 메소드에 적절한 형태로 입력값을 제공하여 오류를 해결할 수 있습니다. 비슷한 상황으로 질문하신 내용과 관련된 유용한 답변을 찾았습니다: - &ldquo; 작업형2 모의문제1 &ldquo;에서 스케일러를 사용할 때 ValueError 를 해결하는 방법에 대해 설명하고 있습니다. 이는 스케일러의 입력값으로 데이터 프레임 형태(2차원 배열)를 넣어주어야 한다는 것을 잘 보여줍니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.