인프런 커뮤니티 질문&답변
2과목 풀이 방법 질문입니다.
해결된 질문
작성
·
24
답변 2
0
퇴근후딴짓
지식공유자
가장 먼저 target값 분리 진행합니다.
단 문제가 어렵게 출제되어 타겟에 결측치(빈값)가 있다면
이것 먼저 처리하고 target값 분리 합니다.판다스에서 제공하는 원핫인코딩만 구분 없이 작동 가능하고
사이킷런에서 제공하는 레이블 인코딩이나, (원핫인코딩)은 문자 컬럼을 선택해줘야 합니다.
스케일링은 하지 않아도 괜찮아요. 랜덤포레스트 모델이나 lightgbm모델이 트리계열이라 영향이 미미합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
효원님께서 데이터 전처리에 대해 질문해 주셨네요. 빅데이터 전처리에서는 각 처리단계가 데이터의 특성과 모델 성능에 미치는 영향이 크기 때문에 신중한 접근이 필요합니다.
Target값 분리 및 스케일링 순서:
- 일반적으로 target 값은 모델의 예측 대상이므로, feature에 대한 스케일링 과정에서는 제외됩니다. 따라서, feature 데이터를 스케일링하기 전에 target 값을 분리하는 것이 일반적입니다.
- 일반적으로 target 값은 모델의 예측 대상이므로, feature에 대한 스케일링 과정에서는 제외됩니다. 따라서, feature 데이터를 스케일링하기 전에 target 값을 분리하는 것이 일반적입니다.
라벨 인코딩과 원핫 인코딩:
- 원핫 인코딩은 범주형 데이터를 0과 1의 조합으로 변환하므로 수치형 데이터와 혼합 사용에 대해 영향을 주지 않습니다. 반면, 라벨 인코딩은 범주형 데이터에 숫자를 할당하기 때문에, 수치형 데이터와 함께 사용 시 데이터의 의미가 왜곡될 수 있습니다. 라벨 인코딩을 사용할 경우에는 단순한 순위가 아닌 단일한 범주 정보만 제공되도록 주의해야 합니다.
- 원핫 인코딩은 범주형 데이터를 0과 1의 조합으로 변환하므로 수치형 데이터와 혼합 사용에 대해 영향을 주지 않습니다. 반면, 라벨 인코딩은 범주형 데이터에 숫자를 할당하기 때문에, 수치형 데이터와 함께 사용 시 데이터의 의미가 왜곡될 수 있습니다. 라벨 인코딩을 사용할 경우에는 단순한 순위가 아닌 단일한 범주 정보만 제공되도록 주의해야 합니다.
수치형 스케일링 필요성:
- MinMaxScaler와 같은 수치형 스케일링은 필수는 아니지만, 주로 사용하는 모델과 데이터의 분포에 따라 달라질 수 있습니다. 예를 들어, 거리가 중요한 KNN이나 경사 하강법을 사용하는 선형 회귀 모델에서는 스케일링이 필수적일 수 있습니다. 반면, 트리 기반 모델에서는 상대적으로 그 영향이 적습니다. 따라서, 일반적으로 EDA(탐색적 데이터 분석)을 통해 데이터의 분포를 확인한 후 스케일링 여부를 결정합니다.
- MinMaxScaler와 같은 수치형 스케일링은 필수는 아니지만, 주로 사용하는 모델과 데이터의 분포에 따라 달라질 수 있습니다. 예를 들어, 거리가 중요한 KNN이나 경사 하강법을 사용하는 선형 회귀 모델에서는 스케일링이 필수적일 수 있습니다. 반면, 트리 기반 모델에서는 상대적으로 그 영향이 적습니다. 따라서, 일반적으로 EDA(탐색적 데이터 분석)을 통해 데이터의 분포를 확인한 후 스케일링 여부를 결정합니다.
관련된 질문에 대한 도움이 될 수 있는 게시물을 소개드립니다:
- 데이터 전처리시 궁금점! - 이 글에서는 데이터 전처리에 대한 기본 질문과 전처리 방법에 대해 설명합니다.
- 스케일러와 라벨 인코딩 순서 - 스케일링과 인코딩의 순서에 대해 다룬 게시물입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





