자세히 보기

Anirban Ghoshal
Senior Writer

스노우플레이크, 데이터 거버넌스 서비스 ‘폴라리스 카탈로그’ 출시··· “오픈소스로 차별화

스노우플레이크가 데이터 거버넌스 서비스인 폴라리스 카탈로그를 오픈소스 형태로 공개하겠다고 3일 밝혔다.

스노우플레이크가 데이터 카탈로그 제품인 ‘폴라리스 카탈로그’를 출시했다. 이 서비스는 오픈소스 형태라서 더욱 주목을 받았는데, 일부 애널리스트가 오픈소스 기반 제품으로 스노우플레이크가 데이터브릭스와 본격 경쟁하며 사용자를 끌어오는 동시에 자사 제품의 매력도를 높이려고 하고 있다고 분석했다.

컨설팅 업체 포레스터의 애널리스트 자예시 차우라시아는 “스노우플레이크는 데이터브릭스의 유니티 카탈로그에 대응하기 위해 폴라리스 카탈로그를 출시한 것으로 보인다”라며 “스노우플레이크의 가치를 더욱 높이고 더 다양한 고객을 유치하고 새로운 데이터 카탈로그를 중심으로 커뮤니티를 활발히 조성할 것”이라고 평가했다.

스노우플레이크 폴라리스 카탈로그 vs 데이터브릭스 유니티 카탈로그
유니티 카탈로그는 2022년 6월 정식 출시된 데이터 거버넌스 서비스다. 사용자는 이를 통해 데이터브릭스 작업 공간 전반에서 중앙 집중 접근 제어, 감사, 계보 및 데이터 검색 기능을 활용하며 내부 데이터를 관리할 수 있다. 데이터브릭스는 2023년 AI에 특화된 데이터 거버넌스 플랫폼인 오케라(Okera)를 인수하며 유니티 카탈로그 기술을 고도화하고 있다.

이번 주 스노우플레이크 연례 컨퍼런스에서 공개된 폴라리스 카탈로그는 유니티 카탈로그와 유사한 기능을 제공하지만, 오픈소스 아파치 아이스버그 데이터 테이블 형식을 활용한다. 이를 통해 벤더 중립적인 제품을 추구하며 데이터 거버넌스 기능과 상호 운용 가능한 쿼리 엔진도 함께 지원한다.

스노우플레이크는 공식 블로그를 통해 “이제 사용자들은 폴라리스 카탈로그라는 단일 중앙 집중식 공간을 통해 모든 엔진에서 일관된 보안과 완전한 개방형 상호운용성을 갖춘 아이스버그 테이블을 찾고 접근할 수 있다”라며 “폴라리스 카탈로그는 아이스버그의 오픈소스 REST 프로토콜를 활용하기에 사용자는 아파치 플링크, 아파치 스파크, 드레미오, 파이썬, 트리노 등 아이스버그를 활용하는 어떤 엔진에서든 데이터에 접근하고 검색할 수 있는 공개 표준을 이용할 수 있다”라고 설명했다.

차우라시아에 따르면, 데이터 시스템의 복잡성과 다양성을 처리하고 AI를 활용하는 과정에서 데이터 카탈로그를 이용하려는 수요가 늘어나고 있으며, 오픈소스 기술은 호환성이 높다는 점에서 주목받고 있다.

차우라시아는 “오픈소스 데이터 카탈로그는 상호 운용성 및 확장성과 같은 문제를 해결하며, 특히 아이스버그 같이 널리 사용되는 테이블 형식을 활용하는 기술이라면 복잡성 해결에 유리하다”라며 “이러한 접근 방식은 다양한 플랫폼과 클라우드 환경 전반에서 데이터 관리를 보다 쉽게 만든다”라고 설명했다.

IDC의 연구 부사장인 스튜어트 본드는 폴라리스 카탈로그가 아파치 아이스버그에서 만든 ‘아이스버그 카탈로그’를 활용하고, 아이스버그 저장소의 여러 분산 인스턴스 관리, 데이터 계보 제공, 데이터 유틸리티 검색 기능, 데이터 설명 기능 등 기업용 기능을 추가했을 가능성이 있다고 분석했다.

스노우플레이크는 폴라리스 카탈로그를 향후 90일 이내에 오픈소스로 공개하겠다고 밝혔다. 폴라리스 카탈로그는 자체 개발한 AI 데이터 클라우드에서 호스팅되거나 도커나 쿠버네티스 같은 컨테이너를 사용해 기업 자체 인프라 환경에서 자체 호스팅될 수 있다.

스노우플레이크는 “폴라리스 카탈로그는 오픈소스로 제공되기 때문에 기업은 보안성을 높게 유지하면서 벤더 종속성을 제거하면서 호스팅 인프라를 자유롭게 교체할 수 있다”라며 “현재 스노우플레이크의 AI 데이터 클라우드 내 폴라리스 카탈로그가 프리뷰 버전으로 공개된 상태”라고 설명했다.

폴라리스로 오픈소스 커뮤니티 지지를 받을 수 있을까?
포레스터의 차우라시아와 DB인사이트의 토니 베어 같은 전문가는 폴라리스 카탈로그가 신규 고객을 확보하기 위한 전략이라고 분석했다. 반면에 더퓨처럼그룹의 연구 부사장 스티븐 디킨스는 고객과 오픈소스 커뮤니티에게 ‘호감’을 얻기 위한 ‘절박한’ 시도’라고 표현했다.

디킨스에 따르면, 폴라리스 카탈로그는 호환성 부족, 락인 현상, 비싼 비용, 혁신 부족, 파트너십에 대한 의존성 등으로 대표되는 스노우플레이크의 한계점을 극복하기 위한 기술이다.

디킨스는 “스노우플레이크 기술은 비싸기로 악명 높으며, 실제로 비용 때문에 많은 고객이 대안 서비스를 찾고 있다”라며 “고객을 유지하기 위한 최후의 노력으로 폴라리스 카탈로그라는 더 저렴한 오픈소스 대안을 제공한 것일 수도 있다”라고 밝혔다.

또한 디킨스는 스노우플레이크가 폴라리스 카탈로그를 오픈소스로 전환한 것은 ‘느리고 고립된 개발 속도’에 대응하기 위한 조치로 평가했다. 디킨스는 “스노우플레이크는 정체 상황을 보완하기 위해 오픈소스라는 외부 혁신을 활용하려는 것일 수 있다”라고 설명했다.

오픈소스 업계의 폴라리스 카탈로그 라이벌
이미 업계에는 오픈소스 기반 데이터 카탈로그가 많이 나와 있다. 차우라시아는 “데이터 카탈로그 및 메타데이터 관리 분야에는 아파치 아틀라스(Apache Atlas), 아문센(Amundsen), 데이터허브(DataHub) 등 여러 오픈소스 프로젝트가 있다”라며 “각각 데이터 검색, 거버넌스, 메타데이터 관리를 위한 기능을 제공한다”라고 밝혔다.

조금 더 자세히 살펴보자면 아파치 아틀라스는 아파치 하둡 환경 내에서 거버넌스 및 규정 준수를 위해 설계되어 하둡 및 관련 빅 데이터 기술을 위한 확장 가능한 메타데이터 관리, 계보, 거버넌스 기능을 제공한다. 아문센은 리프트에서 개발한 기술로 데이터 리소스(메타데이터)를 색인하고 사용량과 관련성을 기반으로 데이터 세트의 검색 및 탐색을 촉진하여 데이터 분석가, 과학자, 엔지니어의 생산성을 높이는 것을 목표로 한다. 데이터허브는 링크드인이 주도한 프로젝트로, 플러그인 기반이면서 다양한 데이터 시스템과 환경을 지원하는 실시간 메타데이터 아키텍처를 제공한다.

차우라시아는 “오픈소스 기술은 메타데이터 수집, 인덱싱, 데이터 검색, 거버넌스에 중점을 두고 있다”라며 “아문센이나 데이터허브는 최근 인기를 끌고 있으며, 두 기술은 효율적인 데이터 관리 서비스에 대한 수요에 따라 사용자 경험, 여러 통합(실시간 및 배치) 지원, 데이터 검색 기능 등을 제공하며 주목받고 있다”라고 설명했다.
dl-ciokorea@foundryco.com