inflearn logo
강의

講義

知識共有

機械学習エンジニアの実務

機械学習パイプライン ステップ

머신러닝 파이프라인 단계 질문

52

sepang

投稿した質問数 8

0

안녕하세요, 선생님.

일반적으로 머신러닝 파이프라인이

  1. 데이터 수집 및 버저닝

  2. 데이터 검증

  3. 데이터 전처리

  4. 모델 학습

이 순서로 진행된다고 이해하고 있습니다.

여기서 제가 헷갈리는 부분이 있어서 질문드립니다.

 

  1. 데이터 검증 범위

     

    최초에 업로드된 raw 데이터에 대해 1차 데이터 검증을 수행한 후, 전처리 과정을 거쳐 train / eval 데이터셋이 생성된다고 알고 있습니다.

     

     

    이때 전처리까지 마친 train / eval 데이터셋에 대해서도 한 번 더 데이터 검증을 수행하는 것이 일반적인 패턴인지가 궁금합니다.

즉, 파이프라인 단계를 좀 더 세분화하면 아래와 같이 이해해도 되는지요?

1) 데이터 검증 (raw 데이터 기준)

2) 데이터 전처리

3) 전처리된 train / eval 데이터에 대한 2차 데이터 검증

4) 모델 학습

 

  1. 최초 학습 시점의 스키마와 서빙 데이터 검증

     

    최초 학습 때 전처리된 파일로부터 train / eval 데이터셋을 만들고,

     

    이 데이터들에 대해 검증을 수행했다면,

    이후 실제 서빙 단계에서 들어오는 serving 데이터에 대해서는

     

    최초 학습 시 사용한 train 데이터의 스키마/통계 정보를 기준으로 이상 유무를 판단하는 것이 맞는지 질문드립니다.

     

     

    즉,

- “최초 학습 시점: raw → 검증 → 전처리 →전처리 결과 검증 → 모델 학습”

- “서빙 시점: 새로운 입력 데이터 → train 시점 스키마/통계 기준으로 검증 → 이상 없을 때만 모델에 입력”

이런 흐름이 일반적으로 사용하는 구조인지 궁금합니다.

 

정리하면,

- 데이터 검증 → 전처리 → 전처리 결과에 대한 추가 검증 → 모델 학습 이라는 단계가 자연스러운지,

- 그리고 서빙 데이터는 최초 학습 시점의 train 데이터 스키마/통계를 기준으로 검증하는 것이 맞는지에 대해

설명해 주시면 감사하겠습니다.

머신러닝

回答 0

6-6

0

11

1

작업형 1 유형 부분

0

13

1

import torch가 안되는 경우는 어떻게 하나요?

0

16

1

작업형 1 (삭제예정, 구 버전)

0

32

2

강의노트는 어디있나요?

0

17

1

수강기간 연장 문의드립니다.

0

21

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

24

3

수강기간 연장 문의드립니다.

0

26

1

인덱스 슬라이싱

0

27

2

6-6 실습 문의

0

24

2

섹션5 노션링크 는 따로 없나요?

0

30

2

Part 4에서 강의 연관 노션 정보들이 워드파일에 없습니다.

0

33

2

첨부자료 Part 4 코드 확인 부탁드리겠습니다.

0

29

2

질문 드립니다.

0

45

2

강의 내용 관련 질문드립니다~

0

43

2

퍼플렉시티 최소 결제단위 50달러로 바뀐 것 같습니다.

0

54

2

수강 연장 문의

0

56

2

강의자료 일괄 다운로드

0

50

2

ML 파이프라인과 배포 프로세스

0

53

1

강의 중 영상에 아무것도 안나오는 것들이 많은듯한데

0

85

1

kubeflow 관련 질문 드립니다

0

89

0

강의에서 제공된 URL 접속이 안됩니다.

0

201

1

강의 내용 중 colab 코드 자료는 링크로 공유 받을 수 있을까요?

0

240

1

강의자료 요청드립니다.

0

244

1