머신러닝 파이프라인 단계 질문
52
投稿した質問数 8
안녕하세요, 선생님.
일반적으로 머신러닝 파이프라인이
데이터 수집 및 버저닝
데이터 검증
데이터 전처리
모델 학습
이 순서로 진행된다고 이해하고 있습니다.
여기서 제가 헷갈리는 부분이 있어서 질문드립니다.
데이터 검증 범위
최초에 업로드된 raw 데이터에 대해 1차 데이터 검증을 수행한 후, 전처리 과정을 거쳐 train / eval 데이터셋이 생성된다고 알고 있습니다.
이때 전처리까지 마친 train / eval 데이터셋에 대해서도 한 번 더 데이터 검증을 수행하는 것이 일반적인 패턴인지가 궁금합니다.
즉, 파이프라인 단계를 좀 더 세분화하면 아래와 같이 이해해도 되는지요?
1) 데이터 검증 (raw 데이터 기준)
2) 데이터 전처리
3) 전처리된 train / eval 데이터에 대한 2차 데이터 검증
4) 모델 학습
최초 학습 시점의 스키마와 서빙 데이터 검증
최초 학습 때 전처리된 파일로부터 train / eval 데이터셋을 만들고,
이 데이터들에 대해 검증을 수행했다면,
이후 실제 서빙 단계에서 들어오는 serving 데이터에 대해서는
최초 학습 시 사용한 train 데이터의 스키마/통계 정보를 기준으로 이상 유무를 판단하는 것이 맞는지 질문드립니다.
즉,
- “최초 학습 시점: raw → 검증 → 전처리 →전처리 결과 검증 → 모델 학습”
- “서빙 시점: 새로운 입력 데이터 → train 시점 스키마/통계 기준으로 검증 → 이상 없을 때만 모델에 입력”
이런 흐름이 일반적으로 사용하는 구조인지 궁금합니다.
정리하면,
- 데이터 검증 → 전처리 → 전처리 결과에 대한 추가 검증 → 모델 학습 이라는 단계가 자연스러운지,
- 그리고 서빙 데이터는 최초 학습 시점의 train 데이터 스키마/통계를 기준으로 검증하는 것이 맞는지에 대해
설명해 주시면 감사하겠습니다.
回答 0
6-6
0
8
1
작업형 1 유형 부분
0
11
1
import torch가 안되는 경우는 어떻게 하나요?
0
16
1
작업형 1 (삭제예정, 구 버전)
0
31
2
강의노트는 어디있나요?
0
17
1
수강기간 연장 문의드립니다.
0
21
1
2유형 레이블 인코딩 VS 원핫 인코딩
0
24
3
수강기간 연장 문의드립니다.
0
26
1
인덱스 슬라이싱
0
27
2
6-6 실습 문의
0
24
2
섹션5 노션링크 는 따로 없나요?
0
30
2
Part 4에서 강의 연관 노션 정보들이 워드파일에 없습니다.
0
33
2
첨부자료 Part 4 코드 확인 부탁드리겠습니다.
0
29
2
질문 드립니다.
0
45
2
강의 내용 관련 질문드립니다~
0
43
2
퍼플렉시티 최소 결제단위 50달러로 바뀐 것 같습니다.
0
54
2
수강 연장 문의
0
55
2
강의자료 일괄 다운로드
0
50
2
ML 파이프라인과 배포 프로세스
0
52
1
강의 중 영상에 아무것도 안나오는 것들이 많은듯한데
0
85
1
kubeflow 관련 질문 드립니다
0
89
0
강의에서 제공된 URL 접속이 안됩니다.
0
201
1
강의 내용 중 colab 코드 자료는 링크로 공유 받을 수 있을까요?
0
240
1
강의자료 요청드립니다.
0
244
1

