강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của sepang
sepang

câu hỏi đã được viết

Thực hành kỹ sư máy học

각 단계 trong pipeline học máy

머신러닝 파이프라인 단계 질문

Viết

·

36

0

안녕하세요, 선생님.

일반적으로 머신러닝 파이프라인이

  1. 데이터 수집 및 버저닝

  2. 데이터 검증

  3. 데이터 전처리

  4. 모델 학습

이 순서로 진행된다고 이해하고 있습니다.

여기서 제가 헷갈리는 부분이 있어서 질문드립니다.

 

  1. 데이터 검증 범위

     

    최초에 업로드된 raw 데이터에 대해 1차 데이터 검증을 수행한 후, 전처리 과정을 거쳐 train / eval 데이터셋이 생성된다고 알고 있습니다.

     

     

    이때 전처리까지 마친 train / eval 데이터셋에 대해서도 한 번 더 데이터 검증을 수행하는 것이 일반적인 패턴인지가 궁금합니다.

즉, 파이프라인 단계를 좀 더 세분화하면 아래와 같이 이해해도 되는지요?

1) 데이터 검증 (raw 데이터 기준)

2) 데이터 전처리

3) 전처리된 train / eval 데이터에 대한 2차 데이터 검증

4) 모델 학습

 

  1. 최초 학습 시점의 스키마와 서빙 데이터 검증

     

    최초 학습 때 전처리된 파일로부터 train / eval 데이터셋을 만들고,

     

    이 데이터들에 대해 검증을 수행했다면,

    이후 실제 서빙 단계에서 들어오는 serving 데이터에 대해서는

     

    최초 학습 시 사용한 train 데이터의 스키마/통계 정보를 기준으로 이상 유무를 판단하는 것이 맞는지 질문드립니다.

     

     

    즉,

- “최초 학습 시점: raw → 검증 → 전처리 →전처리 결과 검증 → 모델 학습”

- “서빙 시점: 새로운 입력 데이터 → train 시점 스키마/통계 기준으로 검증 → 이상 없을 때만 모델에 입력”

이런 흐름이 일반적으로 사용하는 구조인지 궁금합니다.

 

정리하면,

- 데이터 검증 → 전처리 → 전처리 결과에 대한 추가 검증 → 모델 학습 이라는 단계가 자연스러운지,

- 그리고 서빙 데이터는 최초 학습 시점의 train 데이터 스키마/통계를 기준으로 검증하는 것이 맞는지에 대해

설명해 주시면 감사하겠습니다.

머신러닝

Câu trả lời

Câu hỏi này đang chờ câu trả lời
Hãy là người đầu tiên trả lời!
Hình ảnh hồ sơ của sepang
sepang

câu hỏi đã được viết

Đặt câu hỏi