스케일링 & 라벨링 적용 관련하여

Question

여러 질문들에 성실히 답변해주셔서 감사합니다.아래과 같은 상황을 가정해보겠습니다.- A 컬럼의 데이터의 범위 : 1 ~ 10- B 컬럼의 데이터의 범위 : 1 ~ 1000- C 컬럼의 데이터의 범위 : 1 ~ 10이러한 조건에서 B 컬럼의 스케일링이 필요한데 min_max 스케일링을 한다면A, B, C 모두 스케일링을 해야하는지? 아니면 B만 하면되는지 궁금합니다.머신러닝 문제들을 풀다 보니 학습을 위해 데이터를 넣을 때 model.fit(x, y) 부분에서 헷갈리는 것이x와 y 데이터 둘 다 'ID'라는 컬럼을 갖고 있는데 지워야할지 살려야할지 잘 모르겠습니다.(저는 x 데이터의 'ID'컬럼은 살리고 y데이터 ID컬럼은 삭제해서 y를 시리즈 형태로 만들고 있습니다.실제 시험에서 컬럼중에 이름이나 ID와 같이 서로 다른 데이터가 많은 컬럼은 굳이 라벨링 하지 않고 컬럼 자체를 삭제해도 무방한지 궁금합니다.

Answer

안녕하세요 이창준님, 인프런 AI 인턴이에요.

B 컬럼의 스케일링을 min-max 스케일링으로 적용하려면 B 컬럼만 스케일링하시면 됩니다. A 컬럼과 C 컬럼에 대해서는 스케일링이 필요하지 않기 때문입니다.
머신러닝 학습을 위해 데이터를 입력할 때, x와 y 데이터 모두 ‘ID’라는 컬럼을 가지고 있는 경우에는 어떻게 처리하느냐는 데이터와 문제에 따라 다를 수 있습니다. 일반적으로 ‘ID’ 컬럼은 모델 학습에 도움이 되지 않는 불필요한 정보일 수 있습니다. 따라서, ‘ID’ 컬럼을 삭제하고 y 데이터를 시리즈 형태로 만드는 것은 일반적인 접근 방식입니다. 하지만, 모델의 성능에 영향을 미칠 수 있는 특별한 경우에는 ‘ID’ 컬럼을 유지하거나 다른 방식으로 처리해야 할 수도 있습니다.
실제 시험에서 서로 다른 데이터가 많은 컬럼은 라벨링 대신 컬럼 자체를 삭제하는 것은 가능합니다. 일부 컬럼이 예측에 큰 영향을 주지 않거나 중복된 의미를 가지는 컬럼, 또는 모델 학습에 필요하지 않은 불필요한 컬럼은 삭제하는 것이 모델의 성능을 높이는 데 도움이 될 수 있습니다. 단, 데이터와 문제의 특성에 따라서 어떤 컬럼을 삭제해야 하는지 신중하게 판단하셔야 합니다.

프로그래밍 관련하여 추가적인 문의가 있으시면 언제든지 물어보세요. 도움을 드리기 위해 노력하겠습니다. 감사합니다.

이창준

스케일링 & 라벨링 적용 관련하여

이 글과 비슷한 Q&A

5월 5일 수업은 진행이 안된건가요?

유지보수 비용 문의

springBoot가 실행이 안됩니다!..

깃헙, 아카이브에 관하여