머신러닝 파이프라인 단계 질문

Question

안녕하세요, 선생님. 일반적으로 머신러닝 파이프라인이 데이터 수집 및 버저닝 데이터 검증 데이터 전처리 모델 학습 이 순서로 진행된다고 이해하고 있습니다. 여기서 제가 헷갈리는 부분이 있어서 질문드립니다. 데이터 검증 범위 최초에 업로드된 raw 데이터 에 대해 1차 데이터 검증을 수행한 후, 전처리 과정을 거쳐 train / eval 데이터셋 이 생성된다고 알고 있습니다. 이때 전처리까지 마친 train / eval 데이터셋에 대해서도 한 번 더 데이터 검증을 수행하는 것이 일반적인 패턴인지 가 궁금합니다. 즉, 파이프라인 단계를 좀 더 세분화하면 아래와 같이 이해해도 되는지요? 1) 데이터 검증 (raw 데이터 기준) 2) 데이터 전처리 3) 전처리된 train / eval 데이터에 대한 2차 데이터 검증 4) 모델 학습 최초 학습 시점의 스키마와 서빙 데이터 검증 최초 학습 때 전처리된 파일로부터 train / eval 데이터셋 을 만들고, 이 데이터들에 대해 검증을 수행했다면, 이후 실제 서빙 단계에서 들어오는 serving 데이터 에 대해서는 최초 학습 시 사용한 train 데이터의 스키마/통계 정보를 기준으로 이상 유무를 판단하는 것이 맞는지 질문드립니다. 즉, - “최초 학습 시점: raw → 검증 → 전처리 →전처리 결과 검증 → 모델 학습” - “서빙 시점: 새로운 입력 데이터 → train 시점 스키마/통계 기준으로 검증 → 이상 없을 때만 모델에 입력” 이런 흐름이 일반적으로 사용하는 구조인지 궁금합니다. 정리하면, - 데이터 검증 → 전처리 → 전처리 결과에 대한 추가 검증 → 모델 학습 이라는 단계가 자연스러운지, - 그리고 서빙 데이터는 최초 학습 시점의 train 데이터 스키마/통계를 기준으로 검증하는 것이 맞는지 에 대해 설명해 주시면 감사하겠습니다.