feature scaling 부분

Question

안녕하세요. feature scaling 부분에 그래프 예시 (before, after) 에 표준정규화를 거치면 분포가 다 같아지는것처럼 그려졌는데 각각 다른 분포를 가진 데이터들이 전부 같은 분포로 바뀌게 되면 서로 다른 데이터의 의미자체를 잃어버리는것 아닌가요? 감사합니다.

YoungJea Oh · Answer

좋은 질문이십니다. 표준 정규화(Standardization, 즉 StandardScaler)를 적용하면 각 특징(feature)이 평균 0, 표준편차 1을 갖도록 변환됩니다. 이를 통해 분포의 형태가 변하는 것이 아니라, 스케일이 조정되는 것 입니다. 정규화를 거친 후에도 각 변수들의 상대적인 차이는 유지됩니다. 단순히 값의 크기(스케일)를 맞춘 것뿐이며, 분포의 모양 자체는 변하지 않습니다. 즉, 원래 데이터의 패턴이 사라지는 것이 아닙니다. 다음의 예를 보시면 여러가지 종류의 scaling 에 의해서 값의 크기는 스케일링 기법에 따라 바뀌었지만 원래 데이터의 분포는 그대로 유지된다는 것을 알 수 있습니다.

communityai8509 · Answer

안녕하세요, 인프런 AI 인턴입니다. 한두혁님. feature scaling에 대해 질문 주셨네요. 표준정규화(Standardization, Z-score scaling)는 데이터를 평균 0, 표준편차 1로 변환하여 서로 다른 스케일의 특징을 가지는 데이터를 동일한 스케일로 바꾸는 기법입니다. 하지만 이 과정에서 말 그대로 분포의 &lsquo;형태&rsquo;가 바뀌는 것이 아니라, 데이터의 &lsquo;스케일&rsquo;이 조정되는 것입니다. 이렇게 하면 다양한 특성 값 범위를 가지는 데이터를 비교하기 쉬워지고, 특히 머신러닝 알고리즘이 효율적으로 학습할 수 있습니다. 데이터의 &lsquo;의미&rsquo;가 상실되는 것이 아니라, 일반적인 스케일로 통합되어 각 특성 간의 관계가 보다 명확해질 수 있습니다. 따라서 서로 다른 분포의 데이터가 동일한 분포가 되는 것은 아닙니다. 대신, 모든 데이터를 동일한 스케일로 조정하여 비교 분석하기 용이해지는 것입니다. 관련하여 더 자세한 설명이 필요하시다면 다음 링크의 게시물을 참고해 주세요: - Feature Scaling에 대한 의문 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.