• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

피쳐데이터 왜곡도 확인을 통한 로그변환과 피쳐스케일링

22.01.03 15:47 작성 조회수 202

0

안녕하세요 공부하면서 질문이 생겼습니다.

해당 내용에서 피쳐들에 대하여 왜곡도 확인을 통해 왜곡도가 심한 피쳐를 대상으로 로그변환을 적용하였는데

그렇다면 표준화, 정규화와 같은 피쳐 스케일링과 왜곡도 확인 통한 로그 변환 중 어떠한 것을 더 우선적으로 두고 진행해야하는지,  상황별로 사용하는 경우가 다른 것인지지 궁금합니다.

피쳐스케일링을 한 후에 왜곡도를 확인하여 추가 로그변환을 적용해 주는것인지, 아니면 특정 상황에서는 표준화나 정규화를 하고 다른 특정상황에서는 왜곡도 확인으로 로그변환만 해주면 되는 것인지 궁금하네요.

 

추가적으로 이번에 새로 개설하신 스파크 머신러닝에 관해서도 관심이 있어 질문 남깁니다.

파이썬 머신러닝 완벽가이드가 머신러닝 개념 및 구현능력에 관한 강의라면 스파크 강의는 데이터 가공/분석까지 학습할 수 있는 것인지 궁금합니다.

또한 제가 SQL에 대해서 아직 학습을 진행하지 않은 상태여서, 해당 강의를 통해 이러한 부분까지 학습이 가능한 것인지 궁금하며 현업에 종사자가 아닌 취준생에게도 적합한 강의인지 알고 싶습니다.

 

항상 좋은 강의 제공해주셔서 감사합니다.

 

답변 1

답변을 작성해보세요.

0

안녕하십니까, 

1. 피쳐스케일링을 한 후에 왜곡도를 확인하여 추가 로그변환을 적용해 주는것인지, 아니면 특정 상황에서는 표준화나 정규화를 하고 다른 특정상황에서는 왜곡도 확인으로 로그변환만 해주면 되는 것인지 궁금하네요.

=> 이게 딱 정해진 규칙이 없고 적용해봐야 아닌것이긴 합니다만, 중요 피처들이 왜곡도가 매우 심하다면 로그 변환이 더 효과적일 수 있습니다. 

2. 파이썬 머신러닝 완벽가이드가 머신러닝 개념 및 구현능력에 관한 강의라면 스파크 강의는 데이터 가공/분석까지 학습할 수 있는 것인지 궁금합니다.

=> 스파크 강의와 파이썬 머신러닝의 차이라면, 머신러닝 구현을 위해서 사이킷런을 사용하지 않고 스파크 머신러닝 라이브러리를 사용하는 것과 SQL을 기반으로 데이터 분석, 가공, 피처 엔지니어링을 수행하는 것이 큰 차이입니다. 

그리고,

또한 제가 SQL에 대해서 아직 학습을 진행하지 않은 상태여서, 해당 강의를 통해 이러한 부분까지 학습이 가능한 것인지 궁금하며 현업에 종사자가 아닌 취준생에게도 적합한 강의인지 알고 싶습니다.

=> SQL 기본은 아신 상태에서 들으시면 좋을 것 같습니다. 강의 후반부는 수강생 분들이 SQL 기본은 아신다고 가정하고 강의합니다. SQL 기본은 어렵지 않으니, 익히시는데 시간이 오래 걸리진 않을 것입니다. 

취준생에게 적합한지는 어떤 분야로 취직을 하시려는지에 따라 다를것 같습니다만, 익혀 두시면 좋을 거라 생각됩니다. 다만 기업에서 스파크 머신러닝까지 익힌 수준이라면 신입 치고는 높은 수준이어서, 이를 신입이 갖추야할 필수 요소로 생각할지는 잘 모르겠습니다. 

먼저 파이썬 머신러닝을 마무리하시고, 원하시는 직장등에서 스파크를 사용하고 있다면 강의를 들어보실것을 권장드립니다.    

 

김남욱님의 프로필

김남욱

질문자

2022.01.04

답변 감사드립니다.

혹시 그렇다면 현재 대부분의 관련 업계에서는 머신러닝 활용을 위해 스파크 라이브러리를 주로 사용하고 있나요?? 사이킷런 라이브러리 사용은 어느정도로 이루어지는지도 궁금합니다!

정형데이터의 머신러닝 라이브러리는 주로 사이킷런을 활용합니다. 스파크는 대기업이나 금융기관들에서 사이킷런으로 커버가 안되는 대용량의 데이터에 머신러닝을 적용할 때 사용됩니다.