inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

자동화 데이터 파이프라인, 팀으로 제대로 만들어봅니다!!

242

데이터엔지니어

작성한 질문수 0

1

데이터 엔지니어링 기반으로 자동화 처리 시스템을 팀 단위로 구축하는 프로젝트형 스터디입니다.
학습 중심이 아닌, 역할 분담 기반의 협업 중심 실전 경험을 목표로 합니다!

 

1. 스터디 목표

제가 지향하는 방향은 실무 중심 + 협업 중심입니다.

단순히 기술을 공부하는 모임이 아니라,

프로젝트를 팀 단위로 역할을 나눠 실제처럼 운영합니다.

예시:

각자 맡은 파트를 책임지고 구현하지만,
최종 목표는 하나의 통합된 시스템 완성입니다.

즉, 개인 과제가 아니라
협업 구조 속에서 문제를 해결하는 경험을 만드는 스터디입니다.

 

2. 진행 방식

 

Step 1. 문제 정의

예시: 고객 이탈 예측 자동화 파이프라인 구축

단순히 “모델 만들기”가 아니라,
어떤 데이터를 어떻게 자동으로 수집·가공·적재·학습까지 연결할 것인지 정의합니다.

정의 항목 예시:

이 단계에서 “기술”이 아니라 “시스템 목적”을 명확히 합니다.

 

Step 2. 설계 문서 작성

실제 실무처럼 문서부터 만듭니다.

1) 데이터 흐름도

Raw → Staging → Mart → Feature → Model → Prediction
각 레이어에서 무엇이 변환되는지 정의

 

2) 데이터 흐름도

Raw → Staging → Mart → Feature → Model → Prediction
각 레이어에서 무엇이 변환되는지 정의

 

3) Airflow DAG 설계

Task 의존성 정의 (Upstream / Downstream)

 

4) Docker 구성도

네트워크 및 볼륨 구조까지 설계

설계 문서가 승인되기 전까지 코드 작성 금지

 

Step 3. 구현

이 단계는 “코딩”이 아니라 협업 실행 훈련입니다.

예시 흐름:

  1. DB 설계 담당 → migration PR 생성

  2. 파이프라인 담당 → ETL 모듈 PR 생성

  3. DAG 담당 → 의존성 연결 PR

  4. 충돌 발생 → 설계 문서 수정 후 재조정

단순 기능 구현이 아니라
통합 과정에서 발생하는 충돌을 해결하는 경험이 핵심입니다.

 

Step 4. 회고

단순 “느낀 점 공유”가 아니라 구조적 분석을 합니다.

예시 질문:

그리고 반드시 정리합니다:

 

3. 운영 스킬

Linux (운영 환경)

Git / GitHub (형상관리)

Docker (컨테이너 환경)

RDBMS (PostgreSQL, MySQL)

Python (ETL / 데이터 처리)

Airflow (워크플로우 관리)

AWS (EC2, S3 중심)

MLflow (모델 관리)

Spark 또는 대용량 처리 경험

------------------------------

이런 분을 찾습니다.

 

관심있으신 분은 아래 오픈 카톡으로 연락주세요.

https://open.kakao.com/o/sdnNl4hi

답변 0