작성
·
27
답변 2
0
안녕하십니까
강의 잘 들어주셔서 감사합니다.
Feature Engineering 부분 강의에서 제가 Feature Engineering을 위한 여러 방법적인 부분에 대해서 언급을 드리고 있고, 전체 강의의 상당 부분이 Feature Engineering에 대한 부분인데, 혹시 feature engineering 부분의 강의 영상과 실습 강의를 다 들으셨는데도 별도의 방법론을 알고 싶으셔서 질문하신건지요?
강의에서도 강조해서 말씀드리지만, 기계적인 feature engineering 외에, 업무적인 이해에 기반한 feature engineering의 중요성에 대해서 언급드리고 있습니다.
혹 업무적인 이해 부분을 기계적으로 자동 생성하는 부분을 질문을 하신거라면, AutoML과 같은 툴들이 있는데, 권장드리고 싶지는 않습니다.
강의를 아직 다 안들으셨다면, 강의를 어느정도 들으신다면 Feature Engineering에 대한 상당한 감을 잡으실 수 있을 것입니다. 강의를 다 들으시고도, Feature Engineering 부분에 방법론이 여전히 의문이시다면, 강의 내용을 기반으로 좀더 질문을 구체적으로 적어주시면 좋을 것 같습니다.
감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다. 박수현님.
피처 엔지니어링은 머신러닝 프로젝트의 성능을 좌우하는 매우 중요한 단계 중 하나입니다. 새로운 변수를 생성하는 것은 데이터를 보다 의미 있게 만들어 모델의 성능을 극대화하는 목표를 가지고 있습니다. 다음 링크에서 관련된 토론을 통해 더 자세한 정보를 확인할 수 있습니다:
새로운 변수를 생성할 때는 다음과 같은 기준을 고려할 수 있습니다:
도메인 지식 활용: 데이터를 잘 이해하고 있는 도메인 지식이 있다면, 그것을 기반으로 유의미한 변수를 만들 수 있습니다. 예를 들어, 금융 데이터에서 고객의 신용 점수와 같은 변수는 도메인 지식을 반영한 전형적인 예입니다.
데이터의 통계적 특성 활용: 상관관계나 기본 통계량(평균, 분산 등)을 파악하여 데이터 내의 패턴을 찾아낼 수 있습니다. 상관관계가 높은 변수는 피처로 사용할 수 있습니다.
정규화 및 스케일링: 가끔씩 변수의 스케일이 학습에 영향을 미치기 때문에 변수 값을 표준화하거나 정규화하는 것이 필요할 수 있습니다.
차변환: 도메인 지식과 데이터 특성을 기반으로, 복잡한 관계를 설명할 수 있는 새로운 변수를 생성할 수 있습니다. 예를 들어, 특정 비율을 계산하여 변수를 만들거나 시간 기반의 변수를 변환할 수 있습니다.
결측치 및 이상치 처리: 결측치를 대체하거나 이상치를 적절히 처리하여 데이터의 퀄리티를 향상시키는 것이 중요합니다.
피처 엔지니어링 과정은 일종의 실험 과정이라고 할 수 있습니다. 데이터를 다루면서 무엇이 유용할지를 판단하고 새로운 시도를 하는 것이 경험을 쌓아가는 데 큰 도움이 됩니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
감사합니다.. 이제 기존 피처들을 바꿔준다거나 새로운 피처로 가공할때 어떤 기준으로 만드는지에 대한 이해가 부족했던거같습니다. 조금더 강의를 보며 이해해보겠습니다