레이크하우스에서 실시간 분석 기능 직접 구현, 데이터브릭스 ‘Lakehouse//RT’ 출시

IT | 레이크하우스에서 실시간 분석 기능 직접 구현, 데이터브릭스 ‘Lakehouse//RT’ 출시

권경욱 기자 IT 0 0 06.18 09:54

업계 선도적인 데이터 및 AI 기업 데이터브릭스(Databricks)가 자사 레이크하우스의 실시간 진화 버전인 ‘Lakehouse//RT(Real-time)’를 발표했다.

Lakehouse//RT를 통해 기업은 거버넌스가 확보된 델타 레이크(Delta Lake) 및 아파치 아이스버그(Apache Iceberg™) 데이터에서 실시간 분석을 직접 수행할 수 있게 되었으며, 밀리초 단위의 성능을 확보하기 위해 별도의 서빙 시스템을 구축해야 했던 번거로움을 완전히 해소할 수 있게 되었다.

현대적인 에이전트 중심 기업(agentic enterprises)의 높은 동시성과 낮은 대기 시간 요구사항을 충족하도록 설계된 새로운 컴퓨팅 엔진 ‘레이든(Reyden)’을 기반으로 하는 Lakehouse//RT는 현재 베타 버전으로 제공된다.

실시간 레이크하우스의 구현

그동안 높은 동시성 환경에서 낮은 대기 시간을 필요로 하는 기업들은 레이크하우스와 병행하여 별도의 실시간 서빙 레이어를 구축하는 것 외에 대안이 없었다. 그러나 이러한 서빙 레이어는 특정 벤더에 대한 종속성을 유발하고, 인프라 비용을 증가시키며, 거버넌스를 파편화할 뿐만 아니라, 데이터가 늘 복사본 형태로 존재하기 때문에 진정한 의미의 실시간을 실현하지 못한다는 한계가 있었다. 결과적으로 기업들은 대기 시간을 감수하거나 데이터 스택의 파편화를 수용해야 하는 강제적인 타협을 해야만 했다. 이는 사용자에게도 큰 번거로움이지만, AI 에이전트 환경에서는 치명적인 걸림돌이 된다. 항상 가동되며 루프 내에서 추론을 수행하는 AI 에이전트의 행동 능력은 기업의 복잡한 데이터를 얼마나 신속하게 쿼리할 수 있는지에 전적으로 달려있기 때문이다.

Lakehouse//RT는 이러한 타협의 필요성을 없애기 위해 개발되었다. 거버넌스가 확보된 레이크하우스 내에서 델타 및 아이스버그 테이블을 직접 쿼리하므로, AI 에이전트와 사용자는 데이터를 복사하거나 이동하지 않고도 최신의 완전하고 신뢰할 수 있는 데이터에 접근할 수 있다. Lakehouse//RT의 실행 엔진은 일관된 저지연 성능을 유지하면서도 수만 명의 동시 사용자 및 에이전트를 지원하도록 설계되었다. 표준 분석 벤치마크 기준으로 Lakehouse//RT는 초당 12,000 쿼리 처리 시에도 100ms 미만의 지연 시간을 기록했으며, 고객들은 기존 실시간 서빙 스택 대비 최대 16배 향상된 성능을 확인했다. 또한 Lakehouse//RT는 별도의 서빙 레이어를 둘 필요가 없어지기 때문에, 이에 수반되는 유지비용, CDC 및 동기화 파이프라인, 거버넌스 공백, 고유 포맷으로 인한 벤더 종속성 문제까지 모두 해결할 수 있다.

데이터브릭스 공동창립자 겸 CEO 알리 고드시(Ali Ghodsi)는 “지난 10년 동안 우리는 스파크(Spark)를 통한 데이터 엔지니어링 및 데이터 사이언스, 그리고 포톤(Photon)과 레이크하우스를 통한 데이터 웨어하우징에 이르기까지 현대 데이터 스택의 주요 워크로드를 단일 개방형 기반 위에 통합해 왔다”며, “Lakehouse//RT는 엔진의 전체 스펙트럼을 완성하여 사람들이 원하고 에이전트가 필요로 하는 밀리초 단위의 속도 레이어를 제공한다. 우리가 가장 우수한 데이터 웨어하우스가 곧 레이크하우스임을 증명했듯이, 이제 가장 뛰어난 실시간 분석 엔진 역시 레이크하우스라는 점을 보여줄 것”이라고 강조했다.

Lakehouse//RT의 핵심 기술

Lakehouse//RT는 대규모 실시간 서빙의 특수한 요구사항을 충족하도록 구축되었다.

l 어떤 규모에서든 유지되는 밀리초 단위 대기 시간: 레이든의 완전 비동기식 실행 모델은 소규모 데이터 세트에서 최저 10밀리초, 대규모 데이터 세트에서는 100밀리초 수준의 빠른 응답 속도를 제공한다. 처리량이 수만 건으로 치솟는 상황에서도 대기 시간이 저하되지 않는다. 또한 단순한 조회(lookup)에만 최적화된 기존 엔진들과 달리, Lakehouse//RT는 복잡한 분석 전체에 최첨단 성능 기술을 적용한다.

l 개방형·거버넌스 기반의 단일 시스템: 모든 쿼리는 정책, 권한 및 감사(auditing)를 포함한 유니티 카탈로그의 거버넌스 프레임워크 내에서 실행된다. 관리해야 할 별도의 거버넌스 레이어가 없으므로 분석 서빙 영역과 기업의 나머지 데이터 자산 간에 공백이 발생하지 않는다.

l 설정이 필요 없는 최신 데이터 활용: Lakehouse//RT는 고유 포맷, 데이터 복사, 데이터 수집(ingestion) 파이프라인 없이 델타 및 아이스버그 테이블을 직접 쿼리한다. 기존의 어떤 테이블이든 지정하기만 하면 불과 몇 분 만에 실시간 데이터를 바로 쿼리할 수 있다.

고객사 인용문

시스코(Cisco) 데이터 플랫폼 부문 총괄인 크리스 코펙(Chris Kopek)은 “위협 탐지 조회는 사용자 및 에이전트 전반에 걸쳐 사용량이 증가하는 환경에서도 일관된 저지연 성능이 필수”라며, “Lakehouse//RT는 실시간 데이터 상에서 5배 향상된 응답 속도와 밀리초 단위의 우수한 성능을 제공하며, 별도의 서빙 시스템 없이 해당 워크로드를 우리의 레이크하우스에서 직접 구동할 수 있는 확실한 길을 열어주었다”고 말했다.

매그나이트(Magnite)의 엔지니어링 부문 선임 디렉터인 케이번 라파엘(Kayvon Raphael)은 “우리의 플랫폼은 전체 고객 기반을 대상으로 실시간 성능 데이터를 제공하기 위해 초당 수백 개의 쿼리를 처리하므로, 대기 시간과 일관성은 고객이 제품을 경험하는 방식에 직접적인 영향을 미친다”며, “Lakehouse//RT 도입 이후 당사의 핵심 대시보드 쿼리에서 일관되게 200밀리초 미만의 뛰어난 성능을 확인하고 있다. 자체 데이터 레이크 내에서 모든 거버넌스를 유지하면서도 이러한 성능을 달성할 수 있게 되어, 데이터 파이프라인 관리 및 소비자 애플리케이션 서비스의 복잡성이 대폭 감소했다”고 밝혔다.

이용 가능성

Lakehouse//RT는 현재 베타 버전으로 이용 가능하며, 이에 대한 보다 자세한 정보는 데이터브릭스 블로그에서 확인할 수 있다.

데이터브릭스, Databricks, 레이크하우스에서, 실시간, 분석, 기능, 직접, 구현, Lakehouse//RT, 출시

﻿레이크하우스에서 실시간 분석 기능 직접 구현, 데이터브릭스 ‘Lakehouse//RT’ 출시

IT | ﻿레이크하우스에서 실시간 분석 기능 직접 구현, 데이터브릭스 ‘Lakehouse//RT’ 출시

레이크하우스에서 실시간 분석 기능 직접 구현, 데이터브릭스 ‘Lakehouse//RT’ 출시

IT | 레이크하우스에서 실시간 분석 기능 직접 구현, 데이터브릭스 ‘Lakehouse//RT’ 출시