GTC | 엔비디아 cuDF로 가속화된 아파치 스파크 도입, 엔비디아 오픈 라이브러리로 스냅챗 A/B 테스트 가속화
엔비디아(www.nvidia.co.kr)가 미국 새너제이에서 열린 세계 최대 AI·가속 컴퓨팅 콘퍼런스인 ‘엔비디아(NVIDIA) GTC 2026’에서 스냅(Snap)이 엔비디아 cuDF를 기반으로 새로운 기능을 더 빠르게 실험하고 배포하는 동시에 비용 절감 효과를 달성했다고 발표했다.
스냅챗(Snapchat)과 같은 소셜 미디어 앱의 기능은 트렌드만큼 빠르게 변화한다. 이러한 흐름에 발맞추기 위해, 스냅챗의 모회사인 스냅은 개발 속도를 높이기 위해 구글 클라우드(Google Cloud) 기반의 엔비디아 오픈 데이터 처리 라이브러리를 도입했다.
월간 활성 사용자 9억 4천만 명 이상을 보유한 스냅챗은 신규 기능을 정식 출시하기 전에 일련의 통제된 실험 과정을 거친다. 이러한 A/B 테스트 과정에서 개발팀은 일부 사용자를 대상으로 다양한 변수를 분석하며, 사용자 참여도, 앱 성능, 수익성 등 약 6,000개에 달하는 지표를 측정한다.
스냅은 매달 수천 건의 실험을 진행하며, 매일 10페타바이트(PB) 이상의 데이터를 아파치 스파크(Apache Spark) 분산 프레임워크를 통해 단 3시간 만에 처리한다. 엔비디아 cuDF로 가속화된 아파치 스파크를 도입함으로써, 기존과 동일한 규모의 장비로도 런타임 속도를 4배까지 높여 데이터 처리 워크로드를 강화했으며, 이를 통해 서비스 확장에 필요한 비용 효율성을 확보했다.
스냅은 엔비디아 쿠다-X(CUDA-X) 라이브러리를 포함한 엔비디아의 GPU 최적화 소프트웨어를 구글 쿠버네티스 엔진(Google Kubernetes Engine)과 같은 구글 인프라 관리 서비스와 결합해, 대규모 데이터 처리에 최적화된 풀스택 플랫폼을 구축하고 있다.
스냅 수석 엔지니어링 매니저 프루드비 바탈라(Prudhvi Vatala)는 "실험은 우리 회사의 핵심이다. 데이터 인프라를 CPU에서 GPU로 전환함으로써 더 많은 기능, 지표, 사용자에 맞춰 실험 규모를 효율적으로 확장할 수 있다. 이를 통해 더 많은 실험을 수행할수록, 스냅챗 사용자에게 더욱 혁신적인 경험을 제공할 수 있다”고 말했다.
지속 가능한 확장
스냅챗 사용자들은 도착 알림이나 AI 생성 스티커와 같은 새로운 기능을 자주 접하지만, 스냅은 최적화와 최신 운영체제 호환성 업데이트 등의 백엔드 개선도 지속적으로 진행하고 있다.
이 모든 신규 기능에 대한 A/B 테스트는 이제 cuDF 기반으로 실행된다. 이를 통해 개발자들은 별도의 코드 수정 없이도 기존의 아파치 스파크 애플리케이션을 엔비디아 GPU에서 즉시 실행함으로써 손쉬운 배포가 가능하다. 데이터 가속 처리를 지원하는 이 오픈 라이브러리는 엔비디아 cuDF GPU 데이터프레임(cuDF GPU DataFrame) 라이브러리의 강력한 성능을 바탕으로, 이를 아파치 스파크 분산 컴퓨팅 프레임워크에 최적화해 확장한다.
스냅이 1월 1일부터 2월 28일까지 집계한 내부 자료에 따르면, 이번 인프라 전환을 통해 구글 쿠버네티스 엔진 환경에서 엔비디아 GPU를 활용한 결과, 기존 CPU 전용 워크플로우 대비 일일 비용을 76% 절감한 것으로 나타났다.
스냅 수석 엔지니어링 매니저 프루드비 바탈라는 “기존의 인프라 환경에서 실험 규모를 확장하려 했다면, 야심 찬 로드맵을 실현하기도 전에 컴퓨팅 비용이 크게 증가했을 것이다. cuDF 기반의 GPU 가속 파이프라인으로 전환해 급격한 비용 상승 곡선을 안정화할 수 있었으며, 그 결과는 엄청났다"고 말했다.
또한, 그는 “실험은 우리 회사의 핵심에 있다. 데이터 인프라를 CPU에서 GPU로 전환함으로써 우리는 이러한 실험을 효율적으로 확장할 수 있다”고 덧붙였다.
워크로드 마이그레이션(migration)을 지원하기 위해, 개발팀은 스파크 워크로드를 대규모 GPU 가속 환경에 맞게 자동으로 검증, 테스트, 구성, 최적화하는 cuDF 마이크로서비스 제품군도 활용한다.
또한 엔비디아 전문가들과 협력해 엔비디아 L4 GPU가 탑재된 구글 클라우드의 G2 버추얼 머신(G2 virtual machine)에서 파이프라인을 최적화했다. 그 결과, 스냅이 1월 1일부터 3월 13일까지 집계한 데이터 기준으로, 초기 약 5,500개의 GPU가 필요할 것으로 예상됐던 가동은 단 2,100개의 GPU만으로도 충분했다.
스냅 A/B 테스트 팀 백엔드 엔지니어 조슈아 삼바시밤(Joshua Sambasivam)은 “초기 실험 결과는 정말 놀라웠다. 예상보다 훨씬 더 큰 비용 절감 효과를 확인했으며, 스파크 가속기는 우리의 워크로드에 완벽하게 부합한다”고 말했다.
앞으로 스냅은 스파크 가속기의 적용 범위를 A/B 테스트 단계를 넘어, 더 광범위한 프로덕션 워크로드로 통합할 계획이다.
스냅 수석 엔지니어링 매니저 프루드비 바탈라는 “우리가 이런 막대한 자원을 보유하고 있다는 사실을 미처 깨닫지 못했다. 현재까지 규모가 가장 큰 두 개의 파이프라인을 마이그레이션했으며, 앞으로 더 많은 기회가 남아있다”고 말했다.
스냅 수석 엔지니어링 매니저 프루드비 바탈라의 엔비디아 GTC 세션은 3월 17일 오후 1시(현지시간)에 진행됐다. 여기에서 더 자세한 내용을 확인할 수 있다.
여기에서 엔비디아 cuDF, 여기에서 아파치 스파크용 GPU 가속에 대한 자세한 내용을 확인할 수 있다.
상단의 메인 이미지는 스냅이 제공한 것으로, 맵스(Maps) 기능의 A/B 테스트를 시각화한 것이다.
엔비디아, NVIDIA, GTC, GTC 2026, cuDF로, 가속화된, 아파치 스파크, 도입, 오픈 라이브러리로, 스냅챗, Snapchat, A/B 테스트, 가속화







