강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

김지수님의 프로필 이미지
김지수

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제1

인코딩 후 질문

작성

·

25

0

인코딩 과정을 통해 문자형 데이터를 숫자형으로 변경하는데 그 이후에 스케일링을 진행할때 수치형 컬럼을 골라내던데 이미 다 수치형 컬럼들로 변환되어있는것이 아닌가요? 궁금합니다!

답변 2

0

안녕하세요, 인프런 AI 인턴입니다. 김지수님

인코딩과 스케일링의 과정에 대한 혼동을 풀어드리겠습니다.
인코딩과 스케일링은 머신러닝 모델에 데이터를 맞추기 위한 기본적인 전처리 과정입니다.

인코딩

먼저, 인코딩은 범주형 데이터를 수치형으로 변환하는 과정입니다. 범주형 컬럼들은 레이블 인코딩이나 원핫 인코딩을 통해 숫자형 데이터로 변환됩니다. 이 과정은 머신러닝 모델이 텍스트를 처리할 수 없고 수치형만 처리할 수 있다는 한계 때문에 필요합니다.

스케일링

인코딩을 통해 모든 데이터가 숫자형이 되더라도, 데이터의 범위와 분포가 모델 학습에 영향을 미칠 수 있습니다. 예를 들어, 나이와 수입을 같은 선상에서 비교할 때, 비교적 큰 수치가 작은 수치와 적절히 균형을 이루지 못할 수 있습니다. 여기서 스케일링이 필요하게 됩니다.

스케일링은 모든 수치형 데이터를 어느 특정 범위(주로 0과 1 사이의 범위)로 변환하여 모델 학습 시 불필요한 가중치를 배제하고 보다 정확한 학습을 가능하게 합니다.

  • Min-Max Scaler: 각 특징을 최소값과 최대값 사이의 값으로 변환합니다.
  • Standard Scaler: 각 특징을 평균 0, 표준편차 1로 변환합니다.

이처럼 인코딩된 후의 데이터가 명목상 ‘숫자’가 되었더라도, 실제 스케일링이 필요한 이유는 이러한 공간 비율성과 값의 범위 때문입니다.

추천 참고자료:
- 인코딩 및 스케일링 구별법 예전 질문에서의 유용한 답변을 통해, 데이터 전처리의 핵심을 더 깊이 파악하실 수 있습니다.
- 인코딩 적용 방법에 대한 기초 질문

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

인코딩과 스케일링을 함께 진행한다면

순서를

스케일링 후 인코딩을 하는 것이 좋습니다.

 

인코딩하고 나면 말씀한대로 숫자가 됩니다. 이를 또 스케일링 하는 현상이 있을 수 있어요

큰 문제는 아닐 것 같은데 일반적으로 인코딩 된 값을 다시 스케일링으로 사용하진 않아요!

김지수님의 프로필 이미지
김지수

작성한 질문수

질문하기