inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Apache Airflow cùng với các kỹ sư Thung lũng Silicon

Thông báo ngắn gọn!

Airflow Limitation 강의에 대한 질문

Đã giải quyết

92

kmkang

2 câu hỏi đã được viết

1

먼저 좋은 강의 감사합니다.

Airflow Limitation 내용 중 Inefficient for Short Tasks 라는 말씀 하셨는데요.

실무에서 Datapipeline 을 구성할때 해당 Task 을 잘게 자르게 되는데, 혹시 경험적으로 기준 시간은 어느 정도 수행 시간 이상으로 Task를 나눠야 효과적일까요?

 

python 빅데이터 데이터-엔지니어링 airflow

Câu trả lời 1

0

altoformula

안녕하세요

Airflow는 각 Task를 실행할 때 스케줄링, Task 상태 확인, 로그 수집, 워커로 전달, 실행 환경 구성 등의 오버헤드(Overhead)가 발생합니다. 이 오버헤드가 실제 Task 실행 시간보다 길어지면 오히려 효율이 떨어지겠죠.

 

특별하게 정해진 것은 없지만 최소 Task 실행 시간은 약 30초 ~ 1분 이상. 그리고 설명드린대로 Task 하나의 실행 시간이 30초 미만이면 오버헤드가 상대적으로 커져 비효율적일 수 있죠.

저라면 1분 이상의 작업 단위로 쪼개는 것을 추천하겠습니다.

실제로는 Task당 1~5분 정도의 실행 시간이 가장 일반적이며, 이보다 짧으면 병렬 처리의 장점보다 오버헤드가 더 커질 수 있습니다.

도움이 되었으면 좋겠습니다!

1

kmkang

답변 감사합니다. 많은 도움이 되겠습니다.

20번강좌에 대한 질문입니다.

0

3

1

강사님 안녕하세요 ㅎdatabricks환경에 대한 설

0

3

1

6-6

0

14

1

apache airflow 설치하기 질문

0

85

2

postgres_loader DAG 에러

1

52

3

Queue 강의를 듣고 난 후에 대한 질의

0

51

1

공식 compose 내 postgres db 설치시

0

75

2

postgres_loader의 apache-airflow-providers-postgres 버전 호환성

1

184

2

airflow와 postgres간의 connection 오류

1

1146

4

from airflow.sensors.sql import SqlSensor에 대해 질문 있습니다.

1

254

1

메타데이터 의미

1

367

2

병렬처리 질문드립니다.

1

508

2

connection 정보 이전 방법 질문드립니다.

1

278

1

PostgresOperator로 대량의 데이터 업로드 방법 질문드립니다.

1

395

1

강의 할인 프로모션 질문입니다..

1

282

1

hook 질문드립니다.

1

347

1

section 2-hook 강의 질문

1

289

1

airflow tasks test 질문드립니다!

1

509

3

airflow docker compose 질문드립니다.

1

419

1

섹션1 apache airflow 설치하기 질문

1

462

1

my_first_dag.py 파일 질문 입니다

1

399

1

Docker 에서 airflow 사용시 질문드립니다

1

956

2

airflow tasks test error

2

577

1

블로그에 글을 올려도 되나요?

0

486

2