inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Apache Airflow cùng với các kỹ sư Thung lũng Silicon

Thông báo ngắn!

Airflow Limitation 강의에 대한 질문

Đã giải quyết

98

kmkang

3 câu hỏi đã được viết

1

먼저 좋은 강의 감사합니다.

Airflow Limitation 내용 중 Inefficient for Short Tasks 라는 말씀 하셨는데요.

실무에서 Datapipeline 을 구성할때 해당 Task 을 잘게 자르게 되는데, 혹시 경험적으로 기준 시간은 어느 정도 수행 시간 이상으로 Task를 나눠야 효과적일까요?

 

python 빅데이터 데이터-엔지니어링 airflow

Câu trả lời 1

0

altoformula

안녕하세요

Airflow는 각 Task를 실행할 때 스케줄링, Task 상태 확인, 로그 수집, 워커로 전달, 실행 환경 구성 등의 오버헤드(Overhead)가 발생합니다. 이 오버헤드가 실제 Task 실행 시간보다 길어지면 오히려 효율이 떨어지겠죠.

 

특별하게 정해진 것은 없지만 최소 Task 실행 시간은 약 30초 ~ 1분 이상. 그리고 설명드린대로 Task 하나의 실행 시간이 30초 미만이면 오버헤드가 상대적으로 커져 비효율적일 수 있죠.

저라면 1분 이상의 작업 단위로 쪼개는 것을 추천하겠습니다.

실제로는 Task당 1~5분 정도의 실행 시간이 가장 일반적이며, 이보다 짧으면 병렬 처리의 장점보다 오버헤드가 더 커질 수 있습니다.

도움이 되었으면 좋겠습니다!

1

kmkang

답변 감사합니다. 많은 도움이 되겠습니다.

실행이 안 되는데요.

0

2

0

airflow 3로 되면서 2.x대에 지원 중단된 패키지가 많네요..ㅠ

0

44

1

dags 디렉토리안에 sql디렉토리 넣고 .sql 파일로 관리해도 되나요?

0

44

2

apache airflow 설치하기 질문

0

100

2

postgres_loader DAG 에러

1

66

3

Queue 강의를 듣고 난 후에 대한 질의

0

67

1

공식 compose 내 postgres db 설치시

0

85

2

postgres_loader의 apache-airflow-providers-postgres 버전 호환성

1

199

2

airflow와 postgres간의 connection 오류

1

1159

4

from airflow.sensors.sql import SqlSensor에 대해 질문 있습니다.

1

260

1

메타데이터 의미

1

377

2

병렬처리 질문드립니다.

1

519

2

connection 정보 이전 방법 질문드립니다.

1

284

1

PostgresOperator로 대량의 데이터 업로드 방법 질문드립니다.

1

409

1

강의 할인 프로모션 질문입니다..

1

289

1

hook 질문드립니다.

1

358

1

section 2-hook 강의 질문

1

300

1

airflow tasks test 질문드립니다!

1

519

3

airflow docker compose 질문드립니다.

1

426

1

섹션1 apache airflow 설치하기 질문

1

473

1

my_first_dag.py 파일 질문 입니다

1

407

1

Docker 에서 airflow 사용시 질문드립니다

1

974

2

airflow tasks test error

2

579

1

블로그에 글을 올려도 되나요?

0

495

2