inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

Airflow 마스터 클래스

전역 공유변수 Variable

dag_run 주기적으로 삭제

135

이한희

작성한 질문수 7

1

안녕하세요 강사님! 실습중에 궁금한게 생겨서 질문드립니다!

 

dag이 실행될때 저장되는 dag_run 데이터는 주기적으로 삭제해도 airflow 스케줄 실행에 문제가 발생하진 않나요??

 

postgres도 EC2 내부에 docker-compose로 띄워놔서 혹시나 주기적으로 지워주면 리소스를 줄일 수 있을까 해서요!

python 데이터-엔지니어링 airflow

답변 2

1

김현진

안녕하세요 이한희님

네 과거 dag_run 데이터는 삭제해도 괜찮습니다.

해당 데이터는 postgres 테이블에 내용이 저장되므로 테이블 데이터를 직접 삭제해도 똑같이 삭제가 되긴 합니다.

Postgres DB 내용을 주기적으로 지워주는것도 좋습니다. 실제로 DAG 개수가 많아지고 스케줄러도 여러 개 띄우게 되면 Postgres DB에 부하가 많이 갑니다. 그리고 Postgres 테이블의 조각모음이라고 할 수 있는 Vaccum 도 주기적으로 해줘야 읽는 시간이 줄어듭니다. delete 만 해서는 테이블을 구성하고 있는 실제 block의 개수가 줄어들지 않기 때문에 vaccum을 하면 더 도움이 됩니다.

 

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 이한희님.

Airflow에서 dag_run 데이터를 주기적으로 삭제하는 것에 대한 질문이시군요. Airflow에서는 dag_run 및 관련 로그 데이터가 공간 차지를 하게 되는데, 이를 관리하는 것은 중요합니다. 하지만 관리 시 주의해야 할 점이 몇 가지 있습니다:

  1. DAG 실행 이력 보관: dag_run 데이터는 주로 실행 이력을 기록하는데 사용됩니다. 이를 삭제하게 되면 과거의 실행 기록이 모두 사라지므로, 문제가 발생할 시 디버깅이 어려울 수 있습니다. 때문에 삭제 주기를 설정하길 권장드립니다.

  2. Retain만 유지: 만약 실행 기록이 필요 없다면 일정 기간(예: 3개월 또는 6개월) 이후의 데이터만 삭제하여 시스템의 기록과 성능을 모두 유지하는 것이 좋습니다. 이를 위해 스크립트를 작성하여 주기적으로 오래된 데이터를 제거하게 할 수 있습니다.

  3. 백업과 모니터링: 삭제 전 백업을 얻어두는 전략을 추천드립니다. 이것은 예기치 못한 오류에 대비하기 위한 것이며, Airflow의 운영이 매끄럽게 유지될 수 있기를 보장합니다.

관련 내용을 참고할 수 있는 이 게시물은 Airflow 데이터 관리와 시스템 최적화 방법에 대해 자세히 설명합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

pykrx 회원제 전환으로 인한 실습 불가

0

114

2

수료증 발급

0

84

3

에러 발생 관련 질문드립니다.

0

83

2

vscode 작업화면에 오류가 발생하지 않습니다.

0

69

2

plugins 폴더 생성

0

76

2

WSL에서 git push 가 안되요 ㅠ

0

115

2

chatGPT&Airflow로 블로그 자동 포스팅하기 는 Deprecated 가 필요합니다.

0

67

2

github에 회원가입이 안되는데 원인이 뭔지 모르겠어요 ㅠ

0

738

2

설치중인데 venv를 꼭 써야할까요?

0

126

2

설치 버전 관련 질문입니다.

0

68

1

우분투 버전 다운받아야하는데 어떤걸로 설치해야할까요?

0

62

1

DAG 만들기 중 airflow 패키지 로드 에러

0

106

2

3.0에서도 수업노트가 성립하는지 확인 부탁드립니다!

0

95

3

task_id 사용법이 뭔가 바뀐 것 같습니다.

0

76

3

email operator 오류 관련

0

66

2

plugins 폴더 관련

0

100

2

bash operator 관련 문의입니다

0

78

3

스케쥴러 - DAG 파싱 부하 줄이는 과정 질문

0

79

2

Dags refresh 주기 관련 질문

0

125

2

wsl 관련 질문입니다.!

0

75

2

macOS에서 docker 설치

0

94

2

템플릿 변수에 대한 오류

0

61

2

custom_image 디렉토리 문의드립니다.

0

54

2

ETL 인터뷰 관련 문의

0

103

2