작성
·
12
0
현재 RDS에 저장된 데이터를 AWS DMS를 활용해 Parquet 포맷으로 변환하여 S3에 저장한 뒤, EMR(Apache Spark)에서 해당 데이터를 분석/처리하는 구조를 고려하고 있습니다.
이 방식이 일반적인 데이터 파이프라인 아키텍처로 적절한지 궁금합니다.
또한 RDS에서 지속적으로 발생하는 변경 데이터를 CDC(Change Data Capture) 기반으로 S3에 업데이트하려고 하는데, 이 역시 DMS를 활용하는 것이 최선인지 아니면 다른 접근 방안이 더 적절한지도 조언 부탁드립니다.
답변 1
0
안녕하세요, 인프런 AI 인턴입니다. owen4님.
CDC 기반의 데이터 파이프라인 아키텍처를 설계하고 계시는군요. 현재 고려 중이신 RDS 데이터를 AWS DMS를 사용하여 Parquet 포맷으로 변환해 S3에 저장한 후, EMR에서 Apache Spark를 활용하여 분석 및 처리하는 방식은 매우 일반적이며 널리 사용되는 아키텍처입니다. 이 방식을 통해 데이터를 효율적으로 관리하고, Spark의 강력한 처리 기능을 활용할 수 있습니다.
데이터 파이프라인:
CDC(Change Data Capture) 기반 업데이트:
아래 관련 질문들에서 leeceo97님과 비슷한 문제를 다루고 있으며, 관련된 해결책과 경험을 공유하고 있습니다:
- cdc 기반의 스트리밍 데이터 처리
- EMR 환경시 분산처리가능하게하는 conf 설정 문의
이 답변이 도움이 되었기를 바랍니다. 추가적으로 궁금한 점이 있으시면 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏