inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

실리콘밸리 엔지니어와 함께하는 Apache Airflow

잠깐의 공지사항!

Airflow Limitation 강의에 대한 질문

해결된 질문

94

kmkang

작성한 질문수 2

1

먼저 좋은 강의 감사합니다.

Airflow Limitation 내용 중 Inefficient for Short Tasks 라는 말씀 하셨는데요.

실무에서 Datapipeline 을 구성할때 해당 Task 을 잘게 자르게 되는데, 혹시 경험적으로 기준 시간은 어느 정도 수행 시간 이상으로 Task를 나눠야 효과적일까요?

 

python 빅데이터 데이터-엔지니어링 airflow

답변 1

0

미쿡엔지니어

안녕하세요

Airflow는 각 Task를 실행할 때 스케줄링, Task 상태 확인, 로그 수집, 워커로 전달, 실행 환경 구성 등의 오버헤드(Overhead)가 발생합니다. 이 오버헤드가 실제 Task 실행 시간보다 길어지면 오히려 효율이 떨어지겠죠.

 

특별하게 정해진 것은 없지만 최소 Task 실행 시간은 약 30초 ~ 1분 이상. 그리고 설명드린대로 Task 하나의 실행 시간이 30초 미만이면 오버헤드가 상대적으로 커져 비효율적일 수 있죠.

저라면 1분 이상의 작업 단위로 쪼개는 것을 추천하겠습니다.

실제로는 Task당 1~5분 정도의 실행 시간이 가장 일반적이며, 이보다 짧으면 병렬 처리의 장점보다 오버헤드가 더 커질 수 있습니다.

도움이 되었으면 좋겠습니다!

1

kmkang

답변 감사합니다. 많은 도움이 되겠습니다.

만세력 계산 오류 및 결과 오류

0

5

2

강사님.. 하단 URL에 있었던 코드들 다운 받거나 공유 부탁 드립니다..

0

4

1

작업형1 강의 수강 완료 후..

0

6

0

apache airflow 설치하기 질문

0

86

2

postgres_loader DAG 에러

1

54

3

Queue 강의를 듣고 난 후에 대한 질의

0

53

1

공식 compose 내 postgres db 설치시

0

76

2

postgres_loader의 apache-airflow-providers-postgres 버전 호환성

1

187

2

airflow와 postgres간의 connection 오류

1

1147

4

from airflow.sensors.sql import SqlSensor에 대해 질문 있습니다.

1

254

1

메타데이터 의미

1

369

2

병렬처리 질문드립니다.

1

509

2

connection 정보 이전 방법 질문드립니다.

1

278

1

PostgresOperator로 대량의 데이터 업로드 방법 질문드립니다.

1

396

1

강의 할인 프로모션 질문입니다..

1

283

1

hook 질문드립니다.

1

350

1

section 2-hook 강의 질문

1

290

1

airflow tasks test 질문드립니다!

1

510

3

airflow docker compose 질문드립니다.

1

419

1

섹션1 apache airflow 설치하기 질문

1

464

1

my_first_dag.py 파일 질문 입니다

1

401

1

Docker 에서 airflow 사용시 질문드립니다

1

958

2

airflow tasks test error

2

577

1

블로그에 글을 올려도 되나요?

0

486

2