스노우플레이크 서밋 2025 - 클라우드 데이터 산업을 재정의하다.

이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2025년 6월호에 기고한 글입니다. 원본 글 '2025년 AI 현황 보고서 리뷰'를 이곳 브런치에서도 공유합니다.

 

이 글은 제가 가진 여러 개의 아이덴티티 중에서 "메가존 클라우드 기술 자문 엔지니어"의 역할에 충실하며 작성한 글입니다.


들어가며

지난달, 클라우드 데이터 업계의 두 거인 스노우플레이크(Snowflake)와 데이터브릭스(Databricks)는 각각 연례 글로벌 행사를 성공적으로 개최하며 데이터 및 AI 기술의 최신 트렌드와 혁신을 선보였다. 이 두 서비스는 현재 가장 널리 사용되는 데이터 웨어하우징 도구로 자주 비교되곤 한다.’ 본 글에서는 이 중 스노우플레이크와 관련된 내용을 심층적으로 분석할 예정이다.

스노우플레이크 서밋 2025는 2025년 6월 2일부터 5일까지 샌프란시스코 모스콘 센터에서 개최한 연례 행사다. 200개 이상의 파트너사와 20,000명 이상의 참석자가 모인 이 행사는 클라우드 데이터 및 AI 분야의 주요 행사로 확고히 자리매김했다. 데이터 리더, 엔지니어, AI 연구원들이 한자리에 모여 데이터, AI, 클라우드 혁신에 대한 통찰력을 공유하고, 응용 사례, 확장 가능 아키텍처, 협업 솔루션 등에 중점을 둔 세션을 제공했다. 특히, 키노트에서 스노우플레이크 CEO 스리다르 라마스와미(Sridhar Ramaswamy)와 오픈AI 샘 알트만의 대담은 이번 서밋이 AI 시대의 데이터 전략에 있어 중대한 전환점임을 시사한다.

AD_4nXcmxGg0QPrJaDc4UhvvMBTdN8LLymcMooOsP76NHt7Ktq4R4Pzq1OJcLqGSv7C1g8zb6zZckZknJwSPmP0rOuEYwMDzqrs0eo_DJeQOoXCc78lelelasab2C7WMyBUCL044DUPl?key=1j3r-rTIy4jpZRhjIE2oFQ그림 1 사라 구오(Sarah Guo)가 진행한 대담

 

스노우플레이크 소개

스노우플레이크는 오늘날 기업들이 데이터에서 최대 가치를 찾을 수 있도록 지원하는 클라우드 기반 데이터 플랫폼이다. 이전에는 데이터 관리 및 활용에 있어 다음과 같은 문제들에 직면해 있었다.

  • 파편화된 데이터 환경 및 사일로 : 기업 데이터가 온프레미스 데이터베이스, 다양한 클라우드 서비스, 스프레드시트, 문서 등 여러 시스템에 분산되어 있어 통합된 시각을 얻기 어려웠다. 이는 데이터 사일로를 형성하여 비효율적인 의사 결정으로 이어졌다.

  • 복잡하고 비효율적인 데이터 파이프라인 : 데이터 수집, 변환, 로딩(ETL) 과정이 수동적이거나 복잡한 스크립트에 의존하여 시간 소모적이고 오류가 많았다. 특히 실시간 데이터 처리가 어려워 즉각적인 통찰을 얻기 힘들었다.

  • 기술 분석가 부족 및 데이터 접근성 한계 : 특정 기술 스택에 대한 전문 지식이 없으면 사용자가 직접 데이터에 접근하고 분석하기가 어려웠고, 이는 데이터 분석 전문가에 대한 의존도를 높여 데이터 활용의 민주화를 저해했다.

  • 높은 운영 부담 및 비용 비효율성 : 하드웨어 및 인프라를 설치, 구성, 유지보수하는 데 지속적인 관리가 필요했고, 확장이 비효율적이어서 과도한 비용이 발생하거나 성능 병목 현상이 일어났다.

  • 데이터 거버넌스 및 보안의 복잡성 : 민감 데이터의 식별, 분류, 접근 제어, 규제 준수 등이 수동으로 파편화되어 이루어지고 있었다.

스노우플레이크는 클라우드 기반의 독자적인 아키텍처를 통해 이러한 문제점들을 해결하고 다음과 같은 방법으로 기업에 혁신적인 가치를 제공한다.

  • 통합된 데이터 클라우드 : 구조화된 데이터, 반정형 데이터, 비정형 데이터를 모두 지원하며, 거의 모든 데이터 소스에서 데이터를 통합할 수 있다. 이를 통해 기업은 단일 플랫폼에서 모든 데이터를 활용할 수 있다.

  • 간소화된 데이터 파이프라인 및 실시간 처리 : 오픈플로우(Openflow)는 데이터 추출 및 로딩 과정을 스노우플레이크 내에서 직접 처리하여 파이프라인 관리를 최소화 한다.

  • 데이터 활용의 민주화 : 비기술 사용자들도 코드 작성 없이 기업 데이터를 사용할 수 있게 하고, 접근성을 높여 직원들이 데이터의 잠재력을 최대한 활용할 수 있도록 돕는다.

  • 강화된 거버넌스 및 보안 : 민감 데이터를 자동으로 태그하고 라벨을 전파하며, 모델 수준의 역할 기반 접근 제어(RBAC)를 구현하여 AI 모델 접근을 통제한다.

  • 운영 효율성 및 비용 최적화 : 스노우플레이크는 완전 관리형 서비스로, 하드웨어 및 소프트웨어 관리 부담을 없애 준다. 리소스 크기 조정 및 공유를 자동화하여 예측 가능한 비용 관리를 가능하게 한다.

  • 개방성 및 유연성 : 아파치 아이스버그(Apache Iceberg) 및 포스트그레스(Postgres)와 같은 개방형 표준 및 기술을 통합하여 다양한 클라우드 환경과 도구를 자유롭게 결합할 수 있다.

이러한 변화를 통해 스노우플레이크는 데이터 작업을 "더 간단하고, 저렴하며, 안전하게" 만들고 있다.

스노우플레이크의 아키텍처는 기존의 공유 디스크(shared-disk) 및 공유 없음(shared-nothing) 데이터베이스 아키텍처의 장점을 결합한 하이브리드 형태이다. 공유 디스크 아키텍처와 유사하게, 스노우플레이크는 플랫폼 내의 모든 컴퓨팅 노드에서 접근 가능한, 영구적인 데이터를 위한 중앙 데이터 저장소를 사용한다. 하지만 공유 없음 아키텍처와 유사하게, 스노우플레이크는 MPP(대규모 병렬 처리) 컴퓨팅 클러스터를 사용하여 쿼리를 처리하며, 이 클러스터의 각 노드는 전체 데이터 세트의 일부를 로컬에 저장한다. 이러한 접근 방식은 공유 디스크 아키텍처의 데이터 관리 단순성을 제공하면서, 동시에 공유 없음 아키텍처의 성능 및 스케일 아웃(scale-out) 이점을 제공한다.

AD_4nXfo9APFcDVZEI3AM6w9_eoOXFurPQo4wt1e6-BSP8BX6xB2DxKFz00gvhGXVCyn2DLiEcdrHID0R6EJPPtvdY4Rp--NSXFkX2pOfC-Plvar4N_rLxTYuoRS7p2MzHepZr6841c0?key=1j3r-rTIy4jpZRhjIE2oFQ그림 2. 스노우플레이크의 구조

그림 2에서 볼 수 있듯이 스노우플레이크는 데이터베이스 스토리지, 쿼리 처리기, 클라우드 서비스의 세 계층으로 구성되어 있다. 퍼블릭 클라우드와 온프레미스 환경 모두에서 구동되며, 웹 UI, SQL 명령어, 다양한 프로그래밍 커넥터, 그리고 외부 도구들과 연동된다.

 

스노우플레이크 서밋 2025 주요 발표

이번 스노우플레이크 서밋 2025에서는 혁신적인 신규 서비스와 기능들이 대거 발표되었다. 특히 AI 중심의 데이터 플랫폼 표준 제시, 데이터 거버넌스 및 보안 패러다임 변화 주도, 그리고 데이터 통합 및 상호 운용성의 새로운 지평 개척이라는 세가지 핵심 영역에서 두드러진 진보를 보였다. 각 영역별 주요 내용을 아래에서 자세히 살펴본다.

 

AI 중심의 데이터 플랫폼 표준 제시

스노우플레이크는 AI를 데이터 플랫폼의 핵심으로 통합하며 새료운 표준을 제시했다.

  • 스노우플레이크 인텔리전스: 비기술 사용자들도 자연어를 통해 기업 데이터와 대화하고 통찰을 얻을 수 있도록 돕는 새로운 자연어 인터페이스다. 앤스로픽이나 오픈AI의 최신 LLM을 스노우플레이크 보안 경계 내에서 활용하며, 내부적으로 코텍스 에이전트(Cortex Agents)를 통해 작업을 계획하고 분석, 검색 등의 보조 도구를 사용해 응답을 생성한다.

  • 데이터 사이언스 에이전트: 데이터 과학자를 위한 AI 코파일럿으로, 머신러닝 모델 개발 작업을 자동화하여 생산성을 높인다. 코드 생성, 파이프라인 제안, 실험 가속화 등을 지원하며, 머신러닝 워크플로우를 간소화하고 반복 프로세스를 빠르게 진행하며 작업 시간을 절약한다.

AD_4nXecaMf3ouX94eCHorljereH0NKdH3QMhr0KJR1WI68KVLMUh-Np_vAYIZP1_W16xX4DwA7tp74xxAJAylslAxgfj-t19KfAPD3kCjHT-aJskVZqCUlwGjnCX6je3eB2Q7KPNZJsBA?key=1j3r-rTIy4jpZRhjIE2oFQ

AD_4nXefQuTpJ2JRP7wknEEL0fNzjJDAzUEkNaMMjmcy-7x13n3NVqWZxdI4djWOUmDm_YSqEVGgO7dzKPbeQsaUFFsF0yRitnv1pTLFoNCfoGJ34XyTStHtX-VnuwcPtIlIFIm7m7autw?key=1j3r-rTIy4jpZRhjIE2oFQ그림 3. 스노우플레이크 인텔리전스와 데이터 사이언스 에이전트

 

데이터 거버넌스 및 보안의 패러다임 변화

스노우플레이크는 데이터 거버넌스와 보안 분야에서도 혁신적인 개선을 이뤘다.

  • 개선된 호라이존 카탈로그(Horizon Catalog): 민감 데이터를 자동으로 태그하고 라벨을 생성하며, 코파일럿을 통해 “어떤 테이블에 PII(개인식별 정보)가 누락되었나요?” 와 같은 질문에 답변할 수 있도록 지원한다. 이는 수동 태깅의 시간 소모 문제를 해결하고, 태그 누락에 대한 가시성을 제공하며, AI 모델에 대한 일관되지 않은 접근 제어 문제를 해소하여 데이터 보안 및 규제 준수를 강화한다.

  • 포맷 유지 암호(FPE): 전화번호, 이메일, 고객 ID와 같이 특정 데이터 형식에 의존하는 시스템에 중요하며, 원래 구조를 변경하지 않고 민감 데이터를 보호하는 방법이다. FPE는 외부 데이터 공유 시 가독성을 유지하고 세분화된 접근 제어를 가능하게 하며, 다중 테넌트 SaaS 환경에서 테넌트 격리를 유지하는 데 도움을 준다.

  • 데이터 활동 모니터링: 잠재적으로 높은 위험이 있는 이상 징후를 감지하고 상세한 가시성을 제공한다.

  • 불변 스냅샷: 변경 불가능한 시점 복사본을 유지하여 랜섬웨어와 같은 위협에 대한 추가적인 보험 역할을 한다.

 

데이터 통합 및 상호 운용성의 새로운 지평

스노우플레이크는 데이터 통합 및 상호 운용성을 강화하는 데 주력했다.

  • 오픈플로우(Openflow): 배치, 스트리밍, 그리고 구조화 및 비정형 데이터를 아우르는 다양한 워크플로우를 한 곳에서 지원하는 통합 프레임워크다. 아파치(Apache) NiFi를 기반으로 구축된 관리형 통합 서비스로, 사실상 모든 데이터 소스에서 모든 대상으로 데이터를 연결하고 이동할 수 있도록 설계되었다. 쉐어포인트, 슬랙, 구글 드라이브 등 여러 멀티모달 데이터 소스에 직접 연결되어 데이터 수집을 간소화하며, 고객은 오픈플로우를 스노우플레이크 관리 인프라 또는 자체 클라우드(BYOC) 내에 배포할 수 있어 운영 부담을 크게 줄일 수 있다. 이는 복잡하게 파편화된 데이터 스택과 수동적인 데이터 수집 작업을 없애 데이터 이동을 간편하게 하고, 궁극적으로 AI 기반 혁신을 신속하게 배포할 수 있도록 돕는다.

AD_4nXfpkbmnU5XzmQNNxCIp1143r6ETO5bSGgsQAclvuwgzIHPpeDWfbQ7bjUSDFHz43as6XiytsFM-BWldvRmB79cOXnvYDCQ41QdTRbfdqxhdeBWcRgmW3-A5qQDWIIiZwL0bxV6TCQ?key=1j3r-rTIy4jpZRhjIE2oFQ그림 4. 스노우플레이크 오픈플로우 에코시스템

  • 개방형 레이크하우스 아키텍처에 지원 강화: 데이터 통합 및 상호 운용성을 더욱 확대한다. 아파치 아이스버그 통합 및 성능 향상은 VARIANT 지원 및 읽기 시 병합(Merge-on-Read) 기능을 통해 형식 격차를 줄이고 쿼리 속도를 높인다.이를 통해 고객은 고성능 엔진으로 거의 모든 아이스버그 테이블을 활성화하고, 더 많은 데이터에서 더 깊은 통찰을 얻을 수 있다. 이러한 움직임은 고객에게 저장 형식이나 엔진에 대한 '선택의 자유'를 제공하여 각 워크로드에 가장 적합한 도구를 사용할 수 있도록 한다.

  • 스노우플레이크 포스트그레스: 크런치 데이터(Crunchy Data) 인수를 통해 선보이는 서비스로 엔터프라이즈급 PostgreSQL을 플랫폼에 통합했다. 분석 워크로드와 트랜잭션 워크로드를 단일 플랫폼에서 처리할 수 있게 함으로써, 기존의 운영 데이터베이스와 분석 웨어하우스 간의 사일로를 허물고 데이터 파이프라인을 간소화한다.

  • 스노우플레이크 마켓플레이스 확장: 파트너 생태계의 중요성이 증가하고 있음을 명확히 보여준다. 에이전틱 앱과 코텍스 익스텐션(Cortex Knowledge Extensions)과 같은 사전 구축된 솔루션의 도입은 기업이 모든 워크플로우를 처음부터 개발하는 대신, 검증된 솔루션을 활용하여 AI 이니셔티브를 가속화할 수 있도록 '구축' 대 '구매' 결정을 돕는다. 이는 스노우플레이크 플랫폼 내에서 서드파티 AI 도우미를 직접 설치할 수 있게 함으로써, 데이터 이동 없이도 풍부한 기능과 전문 지식을 활용할 수 있는 환경을 조성한다.

AD_4nXesXieAGWn7X5p4cxg0VFiwJVT4kIJcJN4qi74z8jEdkpYZJ2FzlkC4RvBUpI1UfcHETD2AohY3_KZSgD93pw01IEJMWJvwrp1rzzr4CDn13RjbWeP1F8XegDCCAqXCLi_dgY26IQ?key=1j3r-rTIy4jpZRhjIE2oFQ그림 5. 스노우플레이크 마켓 화면

 

맺으며

이번 연례 행사를 통해 스노우플레이크는 단순한 클라우드 데이터 웨어하우스를 넘어, AI 시대의 핵심 데이터 플랫폼으로 진화하고 있음을 명확히 보여주었다. 개발자와 기업이 스노우플레이크 위에서 앱을 구축하고, AI를 활용하며, 워크플로우를 실행할 수 있는 완성형 생태계를 지향하며 클라우드 데이터 산업의 판을 주도하려는 야심을 드러냈다.

이를 이용하는 고객으로서의 기업은 새로운 기술을 단순히 도입하는 것을 넘어, 강력한 데이터 기반을 구축하는 데 집중해야 한다. 이는 명확한 데이터 모델, 데이터 품질 및 접근성에 대한 명확한 소유권, 그리고 새로운 유연성 속에서 거버넌스를 확장하는 방법을 고민하는 것을 포함한다. AI 에이전트와 같은 새로운 기능은 데이터가 신뢰할 수 있을 때 비로소 진정한 가치를 발휘할 수 있으므로, 기업은 시맨틱 뷰를 통해 핵심 비즈니스 지표에 대한 공유된 의미를 확립하고, 민감 데이터 태그 지정을 활성화하며 , 메타데이터를 통해 AI의 신뢰성을 확보하는 데 투자해야 한다.

다음 글에서는 데이터브릭스의 최근 행보와 클라우드 데이터 산업에 미치는 영향에 대해 정리할 예정이다.

댓글을 작성해보세요.

채널톡 아이콘