DATA+AI 서밋 2025 - 데이터브릭스 데이터와 AI의 미래를 그리다.
이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2025년 7월호에 기고한 글입니다. 원본 글 ‘2025년 AI 현황 보고서 리뷰’를 이곳 브런치에서도 공유합니다.
이 글은 제가 가진 여러 개의 아이덴티티 중에서 “메가존 클라우드 기술 자문 엔지니어”의 역할에 충실하며 작성한 글입니다.
들어가며 : 데이터 시대의 새로운 지평 – 데이터브릭스의 부상
지난 호에서 클라우드 데이터 웨어하우스의 선두 주자 스노우플레이크(Snowflake)를 분석한 데 이어, 이번 달에는 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 '레이크하우스 아키텍처'의 선구자인 데이터브릭스를 조명한다. 데이터브릭스는 단순한 데이터 분석 도구를 넘어, 데이터와 AI의 융합을 선도하는 '데이터 인텔리전스 플랫폼'으로서 기업의 디지털 혁신을 가속화하고 있다. 특히 올해 Data + AI 서밋 2025를 비롯한 다양한 혁신적인 발표를 통해 그 입지를 더욱 공고히 하고 있다.
데이터브릭스는 방대한 양의 정형 및 비정형 데이터를 효율적으로 저장, 처리, 분석하고, 나아가 머신러닝 및 AI 워크로드까지 지원하는 엔드-투-엔드 통합 플랫폼이다. 특히 오픈 소스 기술에 대한 깊은 기여와 이를 기반으로 한 혁신은 데이터브릭스를 현대 데이터 환경의 핵심 플레이어로 만들고 있다.
이러한 맥락에서, 스노우플레이크와 데이터브릭스를 연속적으로 다루며 비교하는데,.스노우플레이크가 클라우드 데이터 웨어하우스의 강력한 주자로서 SQL 기반 분석과 비즈니스 인텔리전스(BI)에 특화된 반면, 데이터브릭스는 레이크하우스 아키텍처를 통해 데이터와 AI의 통합이라는 더 넓은 비전을 제시한다. 이는 시장의 관심이 단순 데이터 저장 및 분석을 넘어 AI와의 시너지를 추구하는 방향으로 진화하고 있음을 반영하며, 각 플랫폼이 현대 데이터 환경에서 어떤 고유한 가치를 제공하는지 이해하는 데 필수적이다.
데이터브릭스: 통합된 데이터 인텔리전스 플랫폼의 핵심
레이크하우스 패러다임
데이터브릭스의 핵심은 '레이크하우스(Lakehouse)' 아키텍처이다(그림 1). 이 아키텍처는 데이터 레이크의 유연성(다양한 데이터 형식 지원, 저비용 스토리지)과 데이터 웨어하우스의 구조 및 성능(ACID 트랜잭션, 스키마 강제 적용, 데이터 품질, BI/SQL 성능)을 결합한 것이다. 이를 통해 기업은 정형 및 비정형 데이터를 모두 처리하고 분석하며, 머신러닝 워크로드까지 단일 소스에서 지원할 수 있다. 그리고, 데이터브릭스는 아파치 스파크(Apache Spark), 델타레이크(Delta Lake), MLflow 등 핵심 오픈 소스 프로젝트를 기반으로 이 레이크하우스를 구현하며, 데이터의 신뢰성과 성능을 보장한다.
그림 1 레이크하우스 레퍼런스 구조
주요 기능 및 강점
데이터브릭스 플랫폼은 다양한 데이터 및 AI 워크로드를 지원하는 포괄적인 기능을 제공한다.
ETL 및 데이터 엔지니어링: 데이터브릭스는 아파치 스파크(Apache Spark)의 강력한 대규모 데이터 처리 능력과 델타레이크의 안정적인 데이터 레이크 기능을 결합하여 탁월한 ETL(Extract, Transform, Load) 경험을 제공한다. 사용자는 SQL, 파이썬, Scala를 사용하여 ETL 로직을 구성할 수 있으며, 몇 번의 클릭만으로 스케줄링된 작업 배포를 조율할 수 있다. 오토로더(Auto Loader)는 클라우드 객체 스토리지 및 데이터 레이크에서 데이터를 레이크하우스로 효율적으로 증분 로딩하는 도구이며, 레이크플로우 선언형 파이프라인(Lakeflow Declarative Pipelines)은 데이터셋 간의 종속성을 지능적으로 관리하고 프로덕션 인프라를 자동으로 배포 및 확장하여 ETL 로직을 더욱 간소화하며 적시에 정확한 데이터 전달을 보장한다.
머신러닝, AI 및 데이터 과학: 데이터브릭스 머신러닝은 MLflow를 통한 모델 수명 주기 관리, 허깅페이스 트랜스포머(Hugging Face Transformers)와 같은 다양한 ML 라이브러리 지원 등 데이터 과학자와 ML 엔지니어의 요구에 맞는 포괄적인 도구들을 제공한다. 특히 대규모 언어 모델(LLM)과 생성형 AI에 대한 깊은 통합이 주목할 만한데, 사용자는 자체 데이터로 LLM을 커스터마이징하고, 오픈AI 모델 같은 파트너 솔루션을 워크플로우에 통합할 수 있다. 또한, 데이터 분석가도 AI 함수(Functions)를 통해 오픈AI 등 LLM 모델에 직접 접근하여 데이터 파이프라인 및 워크플로우 내에서 AI를 적용할 수 있다.
관리형 오픈 소스 통합: 데이터브릭스는 오픈 소스 커뮤니티에 대한 강력한 의지를 가지고 있으며, 델타레이크, 델타셰어링(Delta Sharing), MLflow, 아파치 스파크, 리대시(Redash), 유니티 카탈로그(Unity Catalog)와 같은 핵심 오픈 소스 프로젝트의 업데이트 및 통합을 데이터브릭스 런타임 릴리스를 통해 관리한다.
데이터브릭스 vs. 스노우플레이크:
데이터브릭스와 스노우플레이크는 현대 데이터 관리 및 분석 시장에서 각기 다른 아키텍처 철학과 강점을 가지고 경쟁하고 있다.
아키텍처 철학 비교
데이터브릭스(레이크하우스): 데이터 레이크를 기반으로 데이터 웨어하우스의 기능을 통합하여, 정형/비정형 데이터, ETL, BI, ML/AI를 단일 플랫폼에서 처리하는 데 중점을 둔다. 이는 유연성과 확장성, 그리고 특히 AI/ML 워크로드에 최적화된 환경을 제공한다.
스노우플레이크(클라우드 데이터 웨어하우스): 스토리지, 연산, 서비스 계층이 완벽하게 분리된 독점적인 클라우드 네이티브 아키텍처를 통해 SQL 기반의 데이터 웨어하우징 및 비즈니스 인텔리전스(BI) 분석에 최적화된 성능과 관리 용이성을 제공한다. 스노우플레이크는 하드웨어 선택, 설치, 구성 또는 관리가 필요 없는 '거의 제로에 가까운 관리' 플랫폼으로 설계되었다.
주요 기능 및 사용 사례 비교
두 플랫폼은 각자의 강한 영역에서 차별화된 기능을 제공한다.
데이터 웨어하우징 및 BI: 스노우플레이크는 SQL 쿼리 및 BI 애플리케이션에서 탁월한 성능을 제공하며, '자동 스케일링', '제로-카피 클로닝', '타임 트래블', '데이터 공유' 등의 독점적 기능으로 데이터 분석가에게 편리함을 제공한다. 데이터브릭스는 레이크하우스 아키텍처를 통해 데이터 웨어하우스 기능을 수행할 수 있지만, 주로 빅데이터 처리 및 복잡한 데이터 엔지니어링에 강점을 가진다.
머신러닝 및 AI: 데이터브릭스는 MLflow, 데이터브릭스 런타임, 에이전트 브릭스(Agent Bricks), 딥스피드(DeepSpeed) 등 포괄적인 ML/AI 도구와 프레임워크를 이용하여 데이터 과학자 및 ML 엔지니어에게 강력한 환경을 제공한다. 스노우플레이크는 인-데이터베이스 머신러닝을 지원하며 파이썬 UDFs 및 저장 프로시저를 지원하지만, 데이터브릭스만큼 ML/AI 생태계가 깊이 통합되어 있지는 않다.
오픈 소스 및 개방성: 데이터브릭스는 델타레이크, 아파치 아이스버그 등 오픈 소스 표준에 대한 강력한 지지를 통해 데이터 형식에 대한 벤더 종속성을 최소화한다. 반대로 스노우플레이크는 독점적인 아키텍처를 가지며, 데이터 객체는 SQL 쿼리 작업을 통해서만 직접 접근 가능하다.
멀티-클라우드 전략: 데이터브릭스는 AWS, 애저, GCP 전반에 걸쳐 원활하게 작동하며, 통합 제어 플레인을 통해 벤더 종속성을 피할 수 있는 유연성을 제공한다. 스노우플레이크 또한 클라우드 기반이지만, 데이터브릭스처럼 오픈 소스 기반의 멀티-클라우드 유연성을 강조하지는 않는다.
데이터브릭스의 2025년 혁신: 데이터와 AI의 경계를 허물다
데이터브릭스는 2025년 한 해 동안, 특히 2025년 6월 9일부터 12일까지 샌프란시스코 모스콘 센터에서 개최된 Data + AI 서밋 2025에서 데이터 관리, 분석, AI 개발 및 배포 전반에 걸쳐 수많은 혁신적인 기능을 발표하며 '데이터 인텔리전스 플랫폼'으로서의 입지를 더욱 공고히 했다.
강화된 거버넌스 및 데이터 검색
데이터브릭스는 유니티 카탈로그를 중심으로 데이터 거버넌스와 검색 기능을 대폭 강화했다.
아파치 아이스버그(Apache Iceberg) 상호 운용성 강화: 데이터브릭스는 유니티 카탈로그가 아파치 아이스버그 REST API를 완벽하게 지원한다고 발표했다. 이는 데이터 형식 종속성을 제거하고, 델타레이크와 아이스버그 간의 호환성 문제를 해결하며, 이전에 없던 상호 운용성을 제공한다.
비즈니스 사용자로의 거버넌스 확장:
유니티 카탈로그 지표(Metrics): 중앙에서 정의되고 인증된 비즈니스 지표를 지원하여, 파편화된 지표 정의로 인한 보고 불일치와 불신 문제를 해결한다. 이 기능은 AI/BI 대시보드, SQL, 레이크플로우(Lakeflow) 작업 등 모든 곳에서 재사용 가능한 시맨틱 레이어를 제공하며, 감사 및 계보 추적 기능이 기본으로 제공되어 향후 타블로(Tableau) 같은 주요 BI 도구 및 몬테카를로(Monte Carlo)와 같은 관측 가능성 도구와의 통합도 가능하게 한다.
디스커버(Discover) 경험: 비즈니스 도메인별(예: 영업, 마케팅, 재무)로 정리된 인증된 데이터 제품의 큐레이션된 내부 마켓플레이스를 제공하여, 사용자가 고가치 데이터 및 AI 자산을 쉽게 발견할 수 있도록 돕는다. 데이터 품질, 사용 패턴, 관계, 인증 상태를 강조하는 지능형 신호와 데이터브릭스 어시스턴트를 통한 자연어 질문 기능도 포함된다.
고급 거버넌스 기능:
속성 기반 접근 제어 (ABAC): 태그를 사용하여 카탈로그, 스키마, 테이블 수준에서 유연한 접근 정책을 정의할 수 있으며, 행 및 열 수준 보안에 적용된다.
태그 정책: 태그 생성, 할당, 사용 방식에 대한 거버넌스 계층을 강제하여 데이터 분류 및 비용 할당에 일관성을 보장한다.
데이터 분류: 유니티 카탈로그 내 민감 데이터를 지능적으로 감지하고 태그를 자동으로 지정하여 수동 작업을 최소화하고 ABAC와 연동하여 민감 데이터를 자동으로 보호한다.
외부 데이터 계보 통합: 데이트브릭스 외부에서 실행되는 워크로드(예: 첫 마일 ETL, 마지막 마일 BI)의 외부 계보 메타데이터를 유니티 카탈로그에 추가하여 엔드-투-엔드 계보 뷰를 제공한다.
그림 2 유니티 카탈로그의 통합 거버넌스 구조
이러한 유니티 카탈로그의 발전은 데이터 거버넌스가 더 이상 규제 준수를 위한 단순한 부담이 아니라, 데이터 자산의 신뢰도를 높이고, 비즈니스 사용자가 필요한 데이터를 더 쉽고 안전하게 찾아 활용하며, 궁극적으로 데이터 기반 의사결정의 속도와 정확성을 높이는 핵심적인 비즈니스 가치로 진화하고 있음을 보여준다. 특히 AI 기반 자동화는 거버넌스 오버헤드를 줄이면서 효율성을 극대화하는 방향으로 나아가고 있다.
데이터 접근 및 분석의 민주화
데이터브릭스는 비즈니스 사용자들이 데이터에 더 쉽게 접근하고 활용할 수 있도록 지원하는 기능들을 선보였다.
레이크베이스(Lakebase) 아키텍처: 서버리스, 완전 관리형 Postgres 호환 OLTP 데이터베이스를 레이크하우스에 통합했다. 이 아키텍처는 ACID 준수, 10ms 미만의 낮은 지연 시간, 브랜칭, 시점 복구, 독립적인 컴퓨트 스케일링을 제공하여 트랜잭션 및 분석 워크로드를 통합하고 ETL 오버헤드 없이 실시간 하이브리드 애플리케이션을 가능하게 한다.
지니(Genie) AI/BI 및 딥리서치(Deep Research): 대화형 분석을 제공하는 지니 서비스가 사용 가능하고, 딥 리서치는 맥락 기억을 통한 다중 턴 추론으로 심층 분석을 가능하게 한다. 이는 비즈니스 사용자가 정적 대시보드를 넘어 설명 가능한 대화형 분석을 통해 더 깊은 통찰력을 얻도록 돕는다.
데이터브릭스 원(Databricks One): 클러스터나 노트북이 필요 없이, 대시보드, 지니, 앱에 접근하기 위한 간소화된 통합 UI를 제공한다. 이러한 기능들은 데이터 전문가가 아닌 일반 비즈니스 사용자도 데이터에 직접 질문하고, 대화형으로 분석하며, 복잡한 ETL 없이도 실시간 데이터를 활용할 수 있도록 한다. 비즈니스 사용자가 데이터와 AI에 더 쉽게 접근하고 활용할 수 있게 됨으로써, 기업 전체의 데이터 리터러시가 향상되고, 데이터 기반 의사결정 주기가 단축되며, 혁신 아이디어가 더 빠르게 실행될 수 있는 환경이 조성되는데, 이는 궁극적으로 기업의 경쟁력 강화로 이어질 수 있다.
그림 3 데이터브릭스 지니 화면
데이터 운영 및 마이그레이션 가속화
데이터브릭스는 데이터 운영의 효율성을 높이고 기존 데이터 웨어하우스에서 레이크하우스로의 전환을 가속화하는 데 중점을 두었다.
레이크플로우 디자이너(Lakeflow Designer): AI 기반의 노코드 ETL 빌더로, 드래그 앤 드롭 및 자연어 인터페이스를 통해 레이크플로우 선언형 파이프라인을 생성한다. 이는 분석가와 엔지니어 간의 ETL 핸드오프를 간소화하여 프로토타이핑 속도를 높이고 거버넌스를 개선하며 파이프라인 개발 시간을 단축한다.
그림 4 레이크플로우 디자이너 화면
레이크플로우 마이그레이션 프레임워크(Lakebridge Migration Framework): 블레이드브릿지(Bladebridge) 인수를 통해 확보한 무료 오픈 소스 툴킷으로, 데이터 웨어하우스 마이그레이션 워크플로우의 최대 80%를 자동화한다(프로파일링, SQL 변환, 검증 포함). 이는 복잡하고 비용이 많이 드는 마이그레이션 부담을 줄여 레이크하우스로의 전환을 가속화한다.
예측 최적화(Predictive Optimization) 및 자동 리퀴드 클러스터링(Automatic Liquid Clustering): 쿼리 패턴을 분석하여 최적의 클러스터링 키를 자동으로 선택하고 테이블을 클러스터링하여 쿼리 성능을 최대 10배 향상시키고 비용을 절감한다. 특히 자동화와 AI 기반 최적화는 수동 개입의 필요성을 최소화하여 데이터브릭스가 단순히 기능 확장을 넘어, 고객의 총 소유 비용(TCO)을 절감하고 운영 효율성을 극대화하는 데 중점을 두고 있음을 보여준다. 복잡한 데이터 환경에서 발생하는 비효율성을 제거함으로써, 기업은 더 많은 자원을 혁신적인 프로젝트에 투입할 수 있게 되며, 이는 장기적으로 데이터브릭스 플랫폼의 경제적 가치를 높이는 요인이 된다.
AI 개발 및 배포의 진화
데이터브릭스는 생성형 AI 시대에 발맞춰 AI 개발 및 배포 환경을 크게 발전시켰다.
에이전트 브릭스(Agent Bricks): 프로덕션 수준의 AI 에이전트 생성을 간소화하는 새로운 프레임워크로, 노코드 작업 정의, 내장된 평가 생성, 프롬프트 튜닝, 파인튜닝, 보상 모델 등 자동화된 최적화 기술을 제공한다. 이를 통해 고품질의 비용 효율적인 에이전트를 신속하게 배포할 수 있으며, Flo Health와 같은 고객은 정확도를 두 배로 높이면서 LLM 비용을 최대 10배 절감했다고 보고했다. PDF 문서 처리 기능도 추가되어 마크다운으로 변환해서 에이전트 브릭스에서 활용할 수 있게 되었다.
서버리스 GPU 연산: 서버리스 컴퓨팅의 일부로, 커스텀 단일 및 멀티 노드 딥러닝 워크로드에 특화되어 있다. 사용자는 최신 프레임워크를 사용하여 모델을 훈련하고 파인튜닝할 수 있어 효율성, 성능, 품질을 극대화한다.
새로운 AI 함수들(Functions): ai_parse_document() 함수를 통해 비정형 문서에서 구조화된 콘텐츠를 추출하는 등, SQL 데이터 분석가도 LLM 모델에 직접 접근할 수 있는 기능을 제공한다.
LLM 모델 확장: 클로드 소넷 4, 클로드 오푸스, 라마 4 등 최신 LLM 모델들이 모자이크 AI 모델 서빙(Mosaic AI Model Serving) 및 파운데이션 모델 API를 통해 지원된다.
벡터 검색(Vector Search) 및 AI 게이트웨이(Gateway): 벡터 검색 인덱스를 사용하여 AI 플레이그라운드에서 도구 호출 생성형 AI 에이전트를 프로토타이핑하고, AI 게이트웨이가 커스텀 모델 서빙 엔드포인트를 지원하는 등 AI 개발 생태계를 확장했다.
이러한 광범위한 AI 관련 발표는 데이터브릭스가 레이크하우스 기반의 데이터 인텔리전스 플랫폼 비전을 통해, 기업이 생성형 AI를 실제 비즈니스에 적용하고 확장하는 데 필요한 엔드-투-엔드 인프라와 도구를 제공하려는 강력한 의지를 보여준다. 데이터브릭스는 데이터 관리와 분석을 넘어, AI 모델의 개발, 배포, 거버넌스까지 아우르는 통합 플랫폼으로서 생성형 AI 시대의 핵심 인프라 제공자로 자리매김하려 하고 있으며, 이는 스노우플레이크가 아직 따라잡지 못한 영역에서 데이터브릭스의 강점을 보여 준다.
맺으며: 데이터와 AI의 미래를 향한 데이터브릭스의 비전
데이터브릭스는 레이크하우스 아키텍처를 기반으로 데이터 엔지니어링, 분석, 머신러닝, 그리고 생성형 AI까지 아우르는 통합 '데이터 인텔리전스 플랫폼'으로 진화하고 있음을 2025년의 여러 혁신을 통해 명확히 보여주고 있다. 오픈 소스에 대한 강력한 지지와 비즈니스 사용자 중심의 접근 방식은 이러한 비전을 현실화하는 핵심 동력으로 작용하고 있다.
데이터 플랫폼 시장은 통합과 전문화라는 이중 트렌드를 동시에 보이고 있다. 스노우플레이크가 클라우드 데이터 웨어하우징 및 BI 분야에서 여전히 강력한 강점을 유지하는 전문화된 길을 걷는 반면, 데이터브릭스는 복잡한 데이터 엔지니어링, AI/ML 워크로드, 그리고 이제는 트랜잭션 데이터까지 포괄하는 통합 플랫폼으로서의 입지를 굳히고 있는데, 이는 기업들이 '단일 통합 플랫폼'을 선호할지, 아니면 '각 분야 최고의 전문 솔루션'을 조합할지에 대한 전략적 고민이 심해 지는 것을 의미한다.
데이터브릭스는 전자의 길을 강력하게 추진하며, 특히 AI/ML 워크로드에 대한 통합적 접근을 통해 차별화를 꾀하고 있다. 2025년 발표된 유니티 카탈로그의 거버넌스 확장, 레이크베이스를 통한 OLTP 통합, 지니 AI/BI를 통한 비즈니스 사용자 민주화, 그리고 에이전트 브릭스를 통한 AI 에이전트 개발 간소화는 모두 이러한 통합 비전의 구체적인 구현 사례로서, 데이터와 AI의 융합이 가속화되는 미래 데이터 환경에서 데이터브릭스는 엔터프라이즈 AI의 핵심 인프라 제공자로서 중요한 역할을 수행할 것으로 전망된다. 기업은 자사의 특정 니즈와 워크로드 특성을 면밀히 분석하여, 두 플랫폼 중 어떤 것이 더 적합한지, 혹은 상호 보완적으로 활용될 수 있는지에 대한 심층적인 고려가 필요할 것이다.
댓글을 작성해보세요.