Inflearn Community Q&A
Airflow Limitation 강의에 대한 질문
Resolved
Written on
·
74
1
먼저 좋은 강의 감사합니다.
Airflow Limitation 내용 중 Inefficient for Short Tasks 라는 말씀 하셨는데요.
실무에서 Datapipeline 을 구성할때 해당 Task 을 잘게 자르게 되는데, 혹시 경험적으로 기준 시간은 어느 정도 수행 시간 이상으로 Task를 나눠야 효과적일까요?
python빅데이터데이터-엔지니어링airflow
Answer 1
0
altoformula
Instructor
안녕하세요
Airflow는 각 Task를 실행할 때 스케줄링, Task 상태 확인, 로그 수집, 워커로 전달, 실행 환경 구성 등의 오버헤드(Overhead)가 발생합니다. 이 오버헤드가 실제 Task 실행 시간보다 길어지면 오히려 효율이 떨어지겠죠.
특별하게 정해진 것은 없지만 최소 Task 실행 시간은 약 30초 ~ 1분 이상. 그리고 설명드린대로 Task 하나의 실행 시간이 30초 미만이면 오버헤드가 상대적으로 커져 비효율적일 수 있죠.
저라면 1분 이상의 작업 단위로 쪼개는 것을 추천하겠습니다.
실제로는 Task당 1~5분 정도의 실행 시간이 가장 일반적이며, 이보다 짧으면 병렬 처리의 장점보다 오버헤드가 더 커질 수 있습니다.
도움이 되었으면 좋겠습니다!






답변 감사합니다. 많은 도움이 되겠습니다.