강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của kmkang2281
kmkang2281

câu hỏi đã được viết

Apache Airflow cùng với các kỹ sư Thung lũng Silicon

Thông báo ngắn gọn!

Airflow Limitation 강의에 대한 질문

Đã giải quyết

Viết

·

85

1

먼저 좋은 강의 감사합니다.

Airflow Limitation 내용 중 Inefficient for Short Tasks 라는 말씀 하셨는데요.

실무에서 Datapipeline 을 구성할때 해당 Task 을 잘게 자르게 되는데, 혹시 경험적으로 기준 시간은 어느 정도 수행 시간 이상으로 Task를 나눠야 효과적일까요?

 

python빅데이터데이터-엔지니어링airflow

Câu trả lời 1

0

altoformula님의 프로필 이미지
altoformula
Người chia sẻ kiến thức

안녕하세요

Airflow는 각 Task를 실행할 때 스케줄링, Task 상태 확인, 로그 수집, 워커로 전달, 실행 환경 구성 등의 오버헤드(Overhead)가 발생합니다. 이 오버헤드가 실제 Task 실행 시간보다 길어지면 오히려 효율이 떨어지겠죠.

 

특별하게 정해진 것은 없지만 최소 Task 실행 시간은 약 30초 ~ 1분 이상. 그리고 설명드린대로 Task 하나의 실행 시간이 30초 미만이면 오버헤드가 상대적으로 커져 비효율적일 수 있죠.

저라면 1분 이상의 작업 단위로 쪼개는 것을 추천하겠습니다.

실제로는 Task당 1~5분 정도의 실행 시간이 가장 일반적이며, 이보다 짧으면 병렬 처리의 장점보다 오버헤드가 더 커질 수 있습니다.

도움이 되었으면 좋겠습니다!

kmkang님의 프로필 이미지
kmkang
Người đặt câu hỏi

답변 감사합니다. 많은 도움이 되겠습니다.

Hình ảnh hồ sơ của kmkang2281
kmkang2281

câu hỏi đã được viết

Đặt câu hỏi