inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

머신러닝 엔지니어 실무

머신러닝 파이프라인 단계

머신러닝 파이프라인 단계 질문

56

오세창

작성한 질문수 8

0

안녕하세요, 선생님.

일반적으로 머신러닝 파이프라인이

  1. 데이터 수집 및 버저닝

  2. 데이터 검증

  3. 데이터 전처리

  4. 모델 학습

이 순서로 진행된다고 이해하고 있습니다.

여기서 제가 헷갈리는 부분이 있어서 질문드립니다.

 

  1. 데이터 검증 범위

     

    최초에 업로드된 raw 데이터에 대해 1차 데이터 검증을 수행한 후, 전처리 과정을 거쳐 train / eval 데이터셋이 생성된다고 알고 있습니다.

     

     

    이때 전처리까지 마친 train / eval 데이터셋에 대해서도 한 번 더 데이터 검증을 수행하는 것이 일반적인 패턴인지가 궁금합니다.

즉, 파이프라인 단계를 좀 더 세분화하면 아래와 같이 이해해도 되는지요?

1) 데이터 검증 (raw 데이터 기준)

2) 데이터 전처리

3) 전처리된 train / eval 데이터에 대한 2차 데이터 검증

4) 모델 학습

 

  1. 최초 학습 시점의 스키마와 서빙 데이터 검증

     

    최초 학습 때 전처리된 파일로부터 train / eval 데이터셋을 만들고,

     

    이 데이터들에 대해 검증을 수행했다면,

    이후 실제 서빙 단계에서 들어오는 serving 데이터에 대해서는

     

    최초 학습 시 사용한 train 데이터의 스키마/통계 정보를 기준으로 이상 유무를 판단하는 것이 맞는지 질문드립니다.

     

     

    즉,

- “최초 학습 시점: raw → 검증 → 전처리 →전처리 결과 검증 → 모델 학습”

- “서빙 시점: 새로운 입력 데이터 → train 시점 스키마/통계 기준으로 검증 → 이상 없을 때만 모델에 입력”

이런 흐름이 일반적으로 사용하는 구조인지 궁금합니다.

 

정리하면,

- 데이터 검증 → 전처리 → 전처리 결과에 대한 추가 검증 → 모델 학습 이라는 단계가 자연스러운지,

- 그리고 서빙 데이터는 최초 학습 시점의 train 데이터 스키마/통계를 기준으로 검증하는 것이 맞는지에 대해

설명해 주시면 감사하겠습니다.

머신러닝

답변 0

C()

0

3

1

작업형 2에서 strafity 적용 유무

0

7

2

수강 기간 연장 가능 여부 문의드립니다.

0

9

1

ols

0

10

2

2유형 작성관련 질문(일반 심화)

0

14

2

2유형 작성관련 질문

0

11

2

2유형 object컬럼 개수 다르면

0

14

2

코딩팡질문이요ㅠㅠ

0

14

2

관찰값과 기대값의 개념이 헷갈립니다.

0

12

2

작업형2 ID 컬럼 삭제 질문

0

21

2

2유형 작성관련 질문

0

15

2

memoryerror 질문

0

14

2

작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?

0

15

1

ID 삭제 필수 인가요?

0

18

3

7회 기출문제 작업형1번 df 변환 후 저장되는 방식 질문

0

15

2

매일 사용시 토큰사용량

1

14

2

3 유형 귀무가설, 대립가설

0

19

2

인코딩 관련 질문 있습니다

0

22

2

ML 파이프라인과 배포 프로세스

0

60

1

강의 중 영상에 아무것도 안나오는 것들이 많은듯한데

0

90

1

kubeflow 관련 질문 드립니다

0

92

0

강의에서 제공된 URL 접속이 안됩니다.

0

207

1

강의 내용 중 colab 코드 자료는 링크로 공유 받을 수 있을까요?

0

245

1

강의자료 요청드립니다.

0

247

1