강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

이한희님의 프로필 이미지
이한희

작성한 질문수

Airflow 마스터 클래스

전역 공유변수 Variable

dag_run 주기적으로 삭제

작성

·

93

1

안녕하세요 강사님! 실습중에 궁금한게 생겨서 질문드립니다!

 

dag이 실행될때 저장되는 dag_run 데이터는 주기적으로 삭제해도 airflow 스케줄 실행에 문제가 발생하진 않나요??

 

postgres도 EC2 내부에 docker-compose로 띄워놔서 혹시나 주기적으로 지워주면 리소스를 줄일 수 있을까 해서요!

답변 2

1

김현진님의 프로필 이미지
김현진
지식공유자

안녕하세요 이한희님

네 과거 dag_run 데이터는 삭제해도 괜찮습니다.

해당 데이터는 postgres 테이블에 내용이 저장되므로 테이블 데이터를 직접 삭제해도 똑같이 삭제가 되긴 합니다.

Postgres DB 내용을 주기적으로 지워주는것도 좋습니다. 실제로 DAG 개수가 많아지고 스케줄러도 여러 개 띄우게 되면 Postgres DB에 부하가 많이 갑니다. 그리고 Postgres 테이블의 조각모음이라고 할 수 있는 Vaccum 도 주기적으로 해줘야 읽는 시간이 줄어듭니다. delete 만 해서는 테이블을 구성하고 있는 실제 block의 개수가 줄어들지 않기 때문에 vaccum을 하면 더 도움이 됩니다.

 

0

안녕하세요, 인프런 AI 인턴입니다. 이한희님.

Airflow에서 dag_run 데이터를 주기적으로 삭제하는 것에 대한 질문이시군요. Airflow에서는 dag_run 및 관련 로그 데이터가 공간 차지를 하게 되는데, 이를 관리하는 것은 중요합니다. 하지만 관리 시 주의해야 할 점이 몇 가지 있습니다:

  1. DAG 실행 이력 보관: dag_run 데이터는 주로 실행 이력을 기록하는데 사용됩니다. 이를 삭제하게 되면 과거의 실행 기록이 모두 사라지므로, 문제가 발생할 시 디버깅이 어려울 수 있습니다. 때문에 삭제 주기를 설정하길 권장드립니다.

  2. Retain만 유지: 만약 실행 기록이 필요 없다면 일정 기간(예: 3개월 또는 6개월) 이후의 데이터만 삭제하여 시스템의 기록과 성능을 모두 유지하는 것이 좋습니다. 이를 위해 스크립트를 작성하여 주기적으로 오래된 데이터를 제거하게 할 수 있습니다.

  3. 백업과 모니터링: 삭제 전 백업을 얻어두는 전략을 추천드립니다. 이것은 예기치 못한 오류에 대비하기 위한 것이며, Airflow의 운영이 매끄럽게 유지될 수 있기를 보장합니다.

관련 내용을 참고할 수 있는 이 게시물은 Airflow 데이터 관리와 시스템 최적화 방법에 대해 자세히 설명합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

이한희님의 프로필 이미지
이한희

작성한 질문수

질문하기