데이터 가공 질문

Question

안녕하세요, 강의를 듣고 다른 Binary Classification 모델을 만드려다 궁금증이 생겨 질문드립니다.

우선 첫 번째, 기존 학습데이터의 성별, 나이, 페이스와 Qualifying 여부를 가지고 학습한 후 rank of runner의 입력값을 주었을 때 Qualifying을 예측하는 모델 <- 제가 이해한게 맞나요?

그렇다면, 성별,나이,페이스가 Qualifying에 영향을 주었다! 라는 데이터에 상관관계가 있다는 결론을 내려도 되는건지 궁금합니다.

마지막으로, 좀 더 새롭고 복잡한 모델을 만들경우에는 학습시킬 데이터를 잘 가공하는 것이 머신러닝에서 중요한가요?

Answer

안녕하세요? 열공 중이시네요.

문의하신 내용에 대해서 제 의견을 드리면,

1. 데이터로 확인해도 성별, 나이, 페이스는 결과에 일정 상관관계를 가지고 있습니다.

물론 상관관계를 가지고 있다는 것이 모든 결과치에 일률적으로 적용되는 것은 아닙니다.

전체적으로 보면 같은 나이의 여성이 남성보다 기록이 늦게 나타나지만 개별적으로 보면 여성 중에도 남성보다 빠른 분들이 계십니다. 그래서 상관 관계라고하는 것이겠지요.

2. 데이터를 가공하는 것은 머신러닝 뿐 아니라 통계에서도 상당히 중요합니다. 특히 데이터 정제를 통해서 Garbage데이터 또는 극단치를 어떻게 처리하느냐에 따라 결과가 많이 달라집니다. 나중에 Over fitting이슈로도 연결되는 것이지요. 실제 제가 빅 데이터 프로젝트를 할때 ODS(Operational Data Store)라는 영역을 두고 특히 multiple sources는 사전가공에 많은 노력을 기울이고 그것에 따라 제공되는 정보의 질을 높이고 있습니다. 물론 지나치거나 나쁜 의도로 사용하면 정보의 왜곡을 가져올 수도 있습니다.

학습하시는데 도움 되시길 바랍니다.

감사합니다.

Answer

감사합니다!

coconut

데이터 가공 질문

이 글과 비슷한 Q&A

Feature Scaling 강의 질문 있습니다!

heatmap에서 numeric_only=True

pd.Series

Feature Scaling