강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

오세창님의 프로필 이미지
오세창

작성한 질문수

머신러닝 엔지니어 실무

머신러닝 파이프라인 단계

머신러닝 파이프라인 단계 질문

작성

·

6

0

안녕하세요, 선생님.

일반적으로 머신러닝 파이프라인이

  1. 데이터 수집 및 버저닝

  2. 데이터 검증

  3. 데이터 전처리

  4. 모델 학습

이 순서로 진행된다고 이해하고 있습니다.

여기서 제가 헷갈리는 부분이 있어서 질문드립니다.

 

  1. 데이터 검증 범위

     

    최초에 업로드된 raw 데이터에 대해 1차 데이터 검증을 수행한 후, 전처리 과정을 거쳐 train / eval 데이터셋이 생성된다고 알고 있습니다.

     

     

    이때 전처리까지 마친 train / eval 데이터셋에 대해서도 한 번 더 데이터 검증을 수행하는 것이 일반적인 패턴인지가 궁금합니다.

즉, 파이프라인 단계를 좀 더 세분화하면 아래와 같이 이해해도 되는지요?

1) 데이터 검증 (raw 데이터 기준)

2) 데이터 전처리

3) 전처리된 train / eval 데이터에 대한 2차 데이터 검증

4) 모델 학습

 

  1. 최초 학습 시점의 스키마와 서빙 데이터 검증

     

    최초 학습 때 전처리된 파일로부터 train / eval 데이터셋을 만들고,

     

    이 데이터들에 대해 검증을 수행했다면,

    이후 실제 서빙 단계에서 들어오는 serving 데이터에 대해서는

     

    최초 학습 시 사용한 train 데이터의 스키마/통계 정보를 기준으로 이상 유무를 판단하는 것이 맞는지 질문드립니다.

     

     

    즉,

- “최초 학습 시점: raw → 검증 → 전처리 →전처리 결과 검증 → 모델 학습”

- “서빙 시점: 새로운 입력 데이터 → train 시점 스키마/통계 기준으로 검증 → 이상 없을 때만 모델에 입력”

이런 흐름이 일반적으로 사용하는 구조인지 궁금합니다.

 

정리하면,

- 데이터 검증 → 전처리 → 전처리 결과에 대한 추가 검증 → 모델 학습 이라는 단계가 자연스러운지,

- 그리고 서빙 데이터는 최초 학습 시점의 train 데이터 스키마/통계를 기준으로 검증하는 것이 맞는지에 대해

설명해 주시면 감사하겠습니다.

답변

답변을 기다리고 있는 질문이에요
첫번째 답변을 남겨보세요!
오세창님의 프로필 이미지
오세창

작성한 질문수

질문하기