인프런 커뮤니티 질문&답변

nealzs

작성한 질문수

Kafka & Spark 활용한 Realtime Datalake

데이터레이크 아키텍처 설계하기

아키텍처 관련 질문

작성

아키텍처 설계 부분에서 궁금한 점이 있어 질문드립니다.

일반적으로

원천 → 수집 → 저장 → 처리 → 제공 → 활용

의 흐름으로 데이터 아키텍처를 설명해주셨는데, 이 중 원천에 해당하는 부분에서 조금 헷갈리는 지점이 있습니다.

이전 강의에서 DW, DL, Lakehouse를 구축할 때

원천 데이터를 가져와 별도의 저장소에 다시 저장하며, 이 과정에서 데이터가 중복될 수 있고

그 중복이 필요한 이유에 대해서도 설명해주셨던 것으로 이해했습니다.

그래서 제가 이해한 내용을 예시로 확인하고 싶습니다.

예를 들어, 사내에 어떤 제품이 있고

해당 제품의 백엔드 서버가 RDB를 사용하며

서비스 데이터가 그 RDB에 저장되고 있다고 가정했을 때,

DW, DL, Lakehouse를 구축하는 관점에서는

이 서비스용 RDB 자체가 raw data source(원천 데이터) 가 되고,

이 RDB로부터 데이터를 수집하여

DW, DL, Lakehouse 등에 다시 적재하는 구조로 이해했는데

이렇게 이해하는 것이 맞을지 궁금합니다.

kafka apache-spark pyspark data-lake

답변 1

김현진

지식공유자

안녕하세요 nealzs 님

네 맞습니다. 모든 기업이 100% 원천 데이터를 가져와 별도 저장소에 적재해 둔 후 사용하고 있습니다. 15년 전쯤에는 DW 구축이 한창 인기였는데 그때 쓰던 용어로 설명드리자면 원천에서 데이터를 조회하여 ODS 영역이라는 곳에 1차 적재를 해둡니다. ODS 영역은 원천 데이터를 거의 가공없이 가져와 저장해두는 장소입니다 (가져온 시간 등 특정 컬럼은 몇 개 더 만들면서 가져올 수도 있습니다 )

ODS 영역의 데이터를 그냥 데이터레이크 또는 레이크하우스라고 볼 수도 있고 필요에 따라 ODS 에 있는 데이터를 1차 가공하여 일명 스타스키마 라고 부르는 구조는 형태로 만들어 저장해 둘수도 있습니다.

어쨌든 nealzs 님의 말대로 원천에서 데이터를 가져와 저장해두는 구조는 맞습니다.

답변이 됐을까요?

nealzs

작성한 질문수

전체 Q&A

질문하기