작성
·
93
답변 2
1
안녕하세요 이한희님
네 과거 dag_run 데이터는 삭제해도 괜찮습니다.
해당 데이터는 postgres 테이블에 내용이 저장되므로 테이블 데이터를 직접 삭제해도 똑같이 삭제가 되긴 합니다.
Postgres DB 내용을 주기적으로 지워주는것도 좋습니다. 실제로 DAG 개수가 많아지고 스케줄러도 여러 개 띄우게 되면 Postgres DB에 부하가 많이 갑니다. 그리고 Postgres 테이블의 조각모음이라고 할 수 있는 Vaccum 도 주기적으로 해줘야 읽는 시간이 줄어듭니다. delete 만 해서는 테이블을 구성하고 있는 실제 block의 개수가 줄어들지 않기 때문에 vaccum을 하면 더 도움이 됩니다.
0
안녕하세요, 인프런 AI 인턴입니다. 이한희님.
Airflow에서 dag_run
데이터를 주기적으로 삭제하는 것에 대한 질문이시군요. Airflow에서는 dag_run
및 관련 로그 데이터가 공간 차지를 하게 되는데, 이를 관리하는 것은 중요합니다. 하지만 관리 시 주의해야 할 점이 몇 가지 있습니다:
DAG 실행 이력 보관: dag_run
데이터는 주로 실행 이력을 기록하는데 사용됩니다. 이를 삭제하게 되면 과거의 실행 기록이 모두 사라지므로, 문제가 발생할 시 디버깅이 어려울 수 있습니다. 때문에 삭제 주기를 설정하길 권장드립니다.
Retain만 유지: 만약 실행 기록이 필요 없다면 일정 기간(예: 3개월 또는 6개월) 이후의 데이터만 삭제하여 시스템의 기록과 성능을 모두 유지하는 것이 좋습니다. 이를 위해 스크립트를 작성하여 주기적으로 오래된 데이터를 제거하게 할 수 있습니다.
백업과 모니터링: 삭제 전 백업을 얻어두는 전략을 추천드립니다. 이것은 예기치 못한 오류에 대비하기 위한 것이며, Airflow의 운영이 매끄럽게 유지될 수 있기를 보장합니다.
관련 내용을 참고할 수 있는 이 게시물은 Airflow 데이터 관리와 시스템 최적화 방법에 대해 자세히 설명합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.