Orchestration SAGA 패턴 보상에 대한 질문입니다.

Question

Orchestration SAGA 패턴 구현에 대해 고민하다가 질문이 생겨 남깁니다. 보상을 요청하는 메서드가 명시적으로 나와있어 호출할 때(동기로 호출) 만약 rollback을 요청하는 호출이 실패하게 된다면 이후의 순서대로 service에 보상 요청을 하는 동작을 멈춰야 할지 계속 진행하는 게 바람직할지 고민이 됩니다. 예를 들어 서비스 1,2,3,4가 있고 center server가 orchestration 관리를 하고 1,2,3,4 순서대로 서비스 호출해서 관리를 진행한다고 했을 때 3에서 장애가 발생해서 2를 롤백하던 중 2 롤백에서 예외가 발생해서 롤백에 실패한 경우 orchestration에서 1에 대한 롤백을 진행해줘야 할지 아니면 일단 멈춰야 할지 고민입니다. 고민의 이유는 순서대로 롤백을 해주는 것은 앞에 작업이 뒤의 작업에 의존성이 있을 때만 그렇게 해주면 되나에 대한 고민이 있었습니다. 두 롤백 간에 데이터 의존성이 없다면 괜찮지 않을까 고민했습니다. 다음으로 일단 1도 롤백을 한다면 어디서부터 어디까지 롤백이 진행됐는지 추적이 어려워지지 않을까 고민했습니다. 롤백을 어떤 것은 해주고 어떤 것은 안해준다면 어디까지 롤백했는지 추적이 힘들어지지 않을까 생각이 들었습니다.

Hong · Answer

안녕하세요 won님 답변이 늦어서 죄송합니다. 개인적으로 이 SAGA 패턴이라는게 저는 막 정해진 방식은 없다고 생각을 해요. 상황에 따라 맞춰서 가는게 맞다고 생각은 합니다. 하지만 그래도 표준에 대한 기준으로 잡아보자면, 저는 계속 진행하면서 각 보상 결과를 독립적으로 추적하는 구조가 되어야한다. 라고 말할 수 있을꺼같아요. 왜냐하면 가정을 해주신 2번 롤백이 실패했다는 상황이 사실상 1번 자체를 시도조차 하지 않는다는건 좀 다른 문제입니다. 상태 자체가 다르다고 느껴져요. 명시적으로 우리가 잘못되었다고 1번 서비스는 롤백 시도도 안한다는게 일단 의도적으로 우리가 이걸 방치한다는 관점이기 떄문입니다. 최소한 시도를 해야 이걸 시도했는지 시도를 하지 않았는지 히스토리에 남아있는다는 관점도 있기 떄문이에요. 이 SAGA라는것의 최종적인 목적이 결국 시스템이 일관된 상태를 유지한다. 가 기본적인 목표입니다. 그래서 1번은 독립적으로 실행되어야 해요. 의존성관점에서도 이 틀은 벗어나지 않습니다. SAGA에서 의존성이라는 관점은 단순하게 롤백 순서를 지켜야한다. 정도의 관점이지 이걸 롤백을 건너 뛰어도 된다 까지는 다루지 않는게 맞는거 같아요. 추적 관점은 보통은 우리가 상태 추적을 위한 step을 독립적으로 관리하시는게 편하실겁니다. 예를들어 음.. 예시적인 코드로 표현하자면 이런 형태가 될꺼같아요. saga_instance saga_id, status (COMPENSATING | COMPENSATION_FAILED | COMPLETED) 이렇게 status를 스탭마다 두어서 관리를 하는거죠. 이러한 관점에서 WAL 이라는 패턴도 한번 적용해보시면 도움이 되실꺼같아요. 혹시라도 추가적인 질문이 있다면 남겨주세요 좋은 질문 남겨주셔서 감사합니다!

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. won님. Orchestration SAGA 패턴에서 롤백(보상 트랜잭션)에 대한 고민을 하신 점에 대해 설명드리겠습니다. 이는 매우 중요한 주제로, 각 서비스의 롤백 및 보상 처리가 제대로 관리되지 않으면 데이터 일관성이 깨질 수 있습니다. 롤백 순서와 의존성 : 의존성이 없는 경우 : 롤백 순서가 중요하지 않다면 병렬이나 비순차적으로 롤백을 진행할 수 있습니다. 만약 서비스 간에 데이터 의존성이 없다면 개별적으로 롤백이 되어도 무방합니다. 의존성이 있는 경우 : 의존성이 있는 경우, 특히 앞 서비스의 상태가 뒷 서비스의 동작에 영향을 끼친다면, 반드시 순서대로 롤백이 이루어져야 합니다. 롤백 추적 : 모든 서비스에 대한 롤백 상태를 중앙화하여 추적하는 것이 중요합니다. 이는 로그 시스템 혹은 상태 저장소를 사용하여 각 서비스의 롤백 상태를 기록하고 모니터링할 수 있습니다. 롤백이 실패할 경우, 별도의 에러 처리로 롤백 상태를 고려한 이후 절차를 수행해야 합니다. 정지와 지속성 : 에러 발생 시 롤백이 진행되지 않은 서비스들에 대한 롤백을 멈추어야 하는지의 여부는 데이터 무결성과 사용자 경험 측면에서 결정하십시오. 만약 상태 불일치가 클 수 있다면 전체 중단 후 수동 조치를 고려해 볼 수 있습니다. 지속적인 에러 체크와 알림 시스템을 통해 빠르게 오류를 대응할 수 있는 체계를 갖추는 것이 중요합니다. 이와 유사한 주제를 다룬 질문들을 참고해보시면 도움이 될 수 있습니다: 주식거래와 같은 실시간 보장이 필요한 상황에서 SAGA 패턴 도입에 대한 문의 해당 링크에서는 트랜잭션 보장에 대한 다양한 접근 방식을 논의하고 있습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.