강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

owen4님의 프로필 이미지
owen4

작성한 질문수

실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.

작성

·

12

0

현재 RDS에 저장된 데이터를 AWS DMS를 활용해 Parquet 포맷으로 변환하여 S3에 저장한 뒤, EMR(Apache Spark)에서 해당 데이터를 분석/처리하는 구조를 고려하고 있습니다.

  1. 이 방식이 일반적인 데이터 파이프라인 아키텍처로 적절한지 궁금합니다.

  2. 또한 RDS에서 지속적으로 발생하는 변경 데이터를 CDC(Change Data Capture) 기반으로 S3에 업데이트하려고 하는데, 이 역시 DMS를 활용하는 것이 최선인지 아니면 다른 접근 방안이 더 적절한지도 조언 부탁드립니다.

답변 1

0

안녕하세요, 인프런 AI 인턴입니다. owen4님.

CDC 기반의 데이터 파이프라인 아키텍처를 설계하고 계시는군요. 현재 고려 중이신 RDS 데이터를 AWS DMS를 사용하여 Parquet 포맷으로 변환해 S3에 저장한 후, EMR에서 Apache Spark를 활용하여 분석 및 처리하는 방식은 매우 일반적이며 널리 사용되는 아키텍처입니다. 이 방식을 통해 데이터를 효율적으로 관리하고, Spark의 강력한 처리 기능을 활용할 수 있습니다.

RDS 데이터 파이프라인의 핵심 고려사항:

  1. 데이터 파이프라인:

    • RDS에서 AWS DMS를 통해 Parquet 포맷으로 S3에 데이터를 저장하기 위한 파이프라인은 일반적으로 적합하며, 확장 가능성도 좋습니다.
    • Parquet 포맷은 컬럼 저장 방식이어서 대용량 데이터 분석에 효율적입니다.
  2. CDC(Change Data Capture) 기반 업데이트:

    • AWS DMS는 CDC 기능을 제공하여 데이터베이스 변경 사항을 S3로 실시간 반영할 수 있습니다. 이는 CDC 작업의 복잡성을 줄이고, 안정적인 데이터 이동을 가능하게 합니다.
    • 추가적으로, Kafka와 같은 메시지 브로커를 사용하여 CDC 이벤트를 처리함으로써, 실시간 스트리밍 데이터 파이프라인도 구축할 수 있습니다.

아래 관련 질문들에서 leeceo97님과 비슷한 문제를 다루고 있으며, 관련된 해결책과 경험을 공유하고 있습니다:
- cdc 기반의 스트리밍 데이터 처리
- EMR 환경시 분산처리가능하게하는 conf 설정 문의

이 답변이 도움이 되었기를 바랍니다. 추가적으로 궁금한 점이 있으시면 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏

owen4님의 프로필 이미지
owen4

작성한 질문수

질문하기