inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

머신러닝 엔지니어 실무

머신러닝 파이프라인 단계

머신러닝 파이프라인 단계 질문

55

오세창

작성한 질문수 8

0

안녕하세요, 선생님.

일반적으로 머신러닝 파이프라인이

  1. 데이터 수집 및 버저닝

  2. 데이터 검증

  3. 데이터 전처리

  4. 모델 학습

이 순서로 진행된다고 이해하고 있습니다.

여기서 제가 헷갈리는 부분이 있어서 질문드립니다.

 

  1. 데이터 검증 범위

     

    최초에 업로드된 raw 데이터에 대해 1차 데이터 검증을 수행한 후, 전처리 과정을 거쳐 train / eval 데이터셋이 생성된다고 알고 있습니다.

     

     

    이때 전처리까지 마친 train / eval 데이터셋에 대해서도 한 번 더 데이터 검증을 수행하는 것이 일반적인 패턴인지가 궁금합니다.

즉, 파이프라인 단계를 좀 더 세분화하면 아래와 같이 이해해도 되는지요?

1) 데이터 검증 (raw 데이터 기준)

2) 데이터 전처리

3) 전처리된 train / eval 데이터에 대한 2차 데이터 검증

4) 모델 학습

 

  1. 최초 학습 시점의 스키마와 서빙 데이터 검증

     

    최초 학습 때 전처리된 파일로부터 train / eval 데이터셋을 만들고,

     

    이 데이터들에 대해 검증을 수행했다면,

    이후 실제 서빙 단계에서 들어오는 serving 데이터에 대해서는

     

    최초 학습 시 사용한 train 데이터의 스키마/통계 정보를 기준으로 이상 유무를 판단하는 것이 맞는지 질문드립니다.

     

     

    즉,

- “최초 학습 시점: raw → 검증 → 전처리 →전처리 결과 검증 → 모델 학습”

- “서빙 시점: 새로운 입력 데이터 → train 시점 스키마/통계 기준으로 검증 → 이상 없을 때만 모델에 입력”

이런 흐름이 일반적으로 사용하는 구조인지 궁금합니다.

 

정리하면,

- 데이터 검증 → 전처리 → 전처리 결과에 대한 추가 검증 → 모델 학습 이라는 단계가 자연스러운지,

- 그리고 서빙 데이터는 최초 학습 시점의 train 데이터 스키마/통계를 기준으로 검증하는 것이 맞는지에 대해

설명해 주시면 감사하겠습니다.

머신러닝

답변 0

11회 기출 유형(작업형1) 2번 정답

0

3

1

f1 score 질문

0

3

1

10회 작업형 2 인코딩 질의

0

3

1

53번 강의에서 갑자기 수업노트가 없어졌습니다.

0

9

2

28:19 roc_auc이유

0

10

2

수강연장문의

0

13

2

전체적인 머신러닝 순서

0

8

1

빅분기 실기 유형2질문

0

14

1

슬랙에서 메시지 일부 잘림

1

13

2

강의 자료 열람 요청이 안되네요

0

5

0

ID 전처리 이유

0

26

2

데이터제공

0

21

2

예시문제 작업형3 꼬리질문2번

0

13

1

데이터 개수를 구할 때, len과 value_counts 차이

0

18

2

API 오류: EGW00201 - 초당 거래건수를 초과

1

20

2

작업형 2 제출방

0

18

2

인코딩 스케일링 순서

0

18

2

캐글 save version 할 시 md파일과 다름.

1

18

2

ML 파이프라인과 배포 프로세스

0

60

1

강의 중 영상에 아무것도 안나오는 것들이 많은듯한데

0

89

1

kubeflow 관련 질문 드립니다

0

92

0

강의에서 제공된 URL 접속이 안됩니다.

0

207

1

강의 내용 중 colab 코드 자료는 링크로 공유 받을 수 있을까요?

0

243

1

강의자료 요청드립니다.

0

247

1