데이터 및 AI를 위한 업계 최초의 범용 카탈로그, 데이터브릭스 유니티 카탈로그 오픈소스로 제공

홈 > 최신뉴스 > 주요뉴스
주요뉴스

IT | 데이터 및 AI를 위한 업계 최초의 범용 카탈로그, 데이터브릭스 유니티 카탈로그 오픈소스로 제공

권경욱 기자 0   0

업계 선도적인 데이터 및 AI 기업 데이터브릭스(Databricks)가 클라우드, 데이터 형식 및 데이터 플랫폼 전반의 데이터 및 AI 거버넌스를 위한 업계 유일의 통합 솔루션인 유니티 카탈로그(Unity Catalog)를 오픈소스로 제공한다고 발표했다.  


이번 이니셔티브는 개방형 생태계를 통해 고객이 특정 벤더에 종속되지 않도록 유연성과 통제력을 제공하려는 데이터브릭스의 노력을 뒷받침한다. 데이터브릭스는 아마존웹서비스(AWS), 구글 클라우드(Google Cloud), 마이크로소프트(Microsoft), 엔비디아(NVIDIA), 세일즈포스(Salesforce) 등 글로벌 지원을 받아 데이터 및 AI를 위한 개방형 카탈로그 표준의 새로운 시대를 열어가고 있다.  


데이터브릭스 유니티 카탈로그 OSS는 모든 데이터 형식과 컴퓨팅 엔진을 지원하는 범용 인터페이스를 제공한다. 여기에는 델타 레이크(Delta Lake), 아파치 아이스버그TM(Apache IcebergTM) 및 아파치 후디TM(Apache HudiTM) 클라이언트를 통해 델타 레이크 유니폼(UniForm)으로 테이블을 읽을 수 있는 기능이 포함된다. 아이스버그 REST 카탈로그 및 하이브 메타스토어(Hive Metastore, HMS) 인터페이스 표준도 지원된다. 또한 유니티 카탈로그 OSS는 테이블 데이터, 비 테이블 데이터, 그리고 머신러닝(ML) 모델 및 생성형 AI 도구와 같은 AI 자산에 대한 통합 거버넌스를 제공해 조직이 대규모로 관리를 간소화할 수 있도록 한다. 


유니티 카탈로그: 선도적인 데이터 및 AI 카탈로그


조직은 데이터 및 AI 워크로드 처리를 위해 상호 운용 가능한 카탈로그를 필요로 한다. 데이터브릭스는 이러한 고객 수요를 충족하기 위해 2021년 유니티 카탈로그를 출시했다. 기존 조직은 단일 목적을 가진 여러 개의 솔루션에 의존했다. 이에 따라 플랫폼 간, 그리고 데이터 및 AI 자산 간 사일로가 발생했으며, 다중 테이블 형식의 테이블 데이터, 비정형 데이터, ML 모델, 벡터 인덱스 및 AI 도구를 결합하는 현대적인 데이터 및 AI 애플리케이션을 구축하는 데 한계가 있었다. 고객은 메타데이터 사일로를 관리하기 위해 복잡한 웹을 만들고, 다양한 엔진에 접근하기 위해 데이터를 여러 장소나 형식으로 복사하거나, 카탈로그 간의 메타데이터를 동기화하기 위해 자체 솔루션을 유지해야 했다. 결과적으로 비용과 복잡성이 증가하고, 거버넌스가 약화됐으며, 접근 제어가 파편화됐다. 유니티 카탈로그는 오늘날 10,000개 이상의 조직을 위해 이러한 사일로를 허물고 있다. 


알리 고드시(Ali Ghodsi) 데이터브릭스 공동창립자 겸 CEO는 “전 세계 데이터브릭스 고객이 유니티 카탈로그를 애용하고 있다. 유니티 카탈로그를 사용하면 여러 개의 단일 목적 솔루션을 조합할 필요 없이, 데이터브릭스 데이터 인텔리전스 플랫폼 내에서 테이블형 데이터, 비정형 데이터, AI 및 ML 자산 등 모든 데이터 개체를 신뢰할 수 있는 단일 솔루션으로 관리할 수 있다”며, “데이터브릭스의 플랫폼은 모든 데이터가 기본적으로 개방형 형식으로 제공되는 업계 유일의 데이터 플랫폼이다. 메타데이터와 거버넌스를 오픈소스로 공개함에 따라, 오늘날의 데이터 및 AI 환경에서 기업이 필요로 하는 거버넌스 솔루션을 제공할 수 있게 됐다. 유니티 카탈로그를 오픈소스로 제공하고 코드를 공개하게 되어 기쁘게 생각하며, 파트너와의 긴밀한 협업을 통해 개방형 표준을 지속적으로 발전시켜 나갈 예정이다”라고 말했다. 


유니티 카탈로그 OSS는 데이터 및 AI를 위한 업계 유일의 범용 카탈로그로, 주요 기능은 다음과 같다. 


l  상호 운용성: 유니티 카탈로그 OSS는 모든 데이터 형식과 컴퓨터 엔진을 지원하는 범용 인터페이스를 제공한다. 여기에는 델타 레이크, 아파치 아이스버그TM 및 아파치 후디TM 클라이언트를 통해 델타 레이크 유니폼으로 테이블을 읽을 수 있는 기능이 포함된다. 또한 유니티 카탈로그 OSS는 아이스버그 REST 카탈로그 및 HMS 인터페이스 표준을 지원한다. 유니티 카탈로그 OSS는 ▲마이크로소프트 애저(Azure), AWS, GCP, 세일즈포스 등의 주요 클라우드 플랫폼 ▲아파치 스파크™(Apache Spark™), Presto(프레스토), Trino(트리노), DuckDB(덕DB), Daft, PuppyGraph, StarRocks 등의 컴퓨팅 엔진 ▲ dbt Labs, Confluent, Eventual, Fivetran, Granica, Immuta, Informatica, LanceDB, LangChain, Tecton, and Unstructured 등의 데이터 및 AI 플랫폼을 포함한 모든 주요 클라우드 플랫폼과 상호 운용이 가능하다.


l  통합 거버넌스: 유니티 카탈로그 OSS는 테이블 형식 데이터, 비 테이블 형식 데이터, 그리고 ML 모델 및 생성형 AI 도구와 같은 AI 자산에 걸친 통합 거버넌스를 제공해 조직이 대규모로 관리, 검색, 및 개발을 간소화할 수 있도록 돕는다.


l  개방성: 유니티 카탈로그 OSS는 오픈 API와 아파치 2.0 라이선스의 오픈소스 서버를 통해 다양한 엔진, 도구 및 플랫폼 전반에 걸친 광범위한 상호운용성을 지원한다. 이로써 유연성과 선택의 폭을 극대화한다. 


매트 두건(Matt Dugan) AT&T 데이터 플랫폼 부사장은 “AT&T는 자사 데이터를 자사 플랫폼과 상호 운용할 수 있도록 하기 위해 노력해 왔다. 유니티 카탈로그의 오픈소싱 발표와 함께, 개방형 표준을 통해 레이크하우스 거버넌스와 메타데이터 관리를 지원하기 위한 데이터브릭스의 행보는 고무적이다. 데이터 및 AI 자산과 상호 운용 가능한 도구를 활용할 수 있는 유연성은 일관된 거버넌스와 더불어 AT&T 데이터 플랫폼 전략의 핵심이다”라고 말했다. 


레니 로젠펠드(Lenny Rosenfeld) 나스닥(Nasdaq) 자본 액세스 플랫폼 담당 부사장은 "나스닥의 종합적인 데이터 관리 전략의 일환으로 데이터브릭스의 유니티 카탈로그를 활용하게 되어 기쁘다”며, "데이터브릭스가 유니티 카탈로그를 오픈소스로 제공하기로 한 결정은 데이터 사일로 제거를 위한 솔루션을 제시한다. 앞으로 고객에게 지속적으로 서비스를 제공하며 플랫폼을 더욱 확장하고 거버넌스를 강화해 데이터 애플리케이션을 현대화할 수 있기를 기대한다"고 말했다. 


이번 발표로 데이터브릭스는 상호 운용 가능한 도구, 데이터 및 AI 자산에 대한 범용 지원, 그리고 내장된 보안으로 구성된 생태계를 촉진하고 데이터 및 AI 거버넌스를 계속해서 선도해 나갈 계획이다.

 

ⓒ 블루프레임(https://www.blueframe.co.kr) 무단전재 및 재배포금지

, , , , , , , , , , , , , ,

0 Comments