로컬 PC부터 클라우드 환경까지, 엔비디아 로컬 AI 위한 구글 딥마인드 디퓨전젬마 가속화

IT | 로컬 PC부터 클라우드 환경까지, 엔비디아 로컬 AI 위한 구글 딥마인드 디퓨전젬마 가속화

권경욱 기자 IT 0 0 06.12 10:00

엔비디아(www.nvidia.co.kr)가 구글 딥마인드(Google DeepMind)의 디퓨전젬마(DiffusionGemma)를 엔비디아 지포스(NVIDIA GeForce) RTX GPU, 엔비디아 RTX PRO 플랫폼, 엔비디아 DGX 스파크(DGX Spark) 시스템 전반에서 더욱 빠르게 실행할 수 있도록 최적화했다고 밝혔다. 이를 통해 로컬 PC부터 클라우드 환경까지 폭넓은 활용이 가능해졌다.

디퓨전젬마는 텍스트를 한 번에 한 단어씩 생성하는 대신 여러 단어를 병렬로 생성해 텍스트 블록 전체를 출력한다. 이를 통해 개발자와 연구자, AI 애호가들이 일상적으로 사용하는 단일 사용자 워크로드에서 혁신적인 저지연 AI 경험을 제공한다.

디퓨전젬마의 주요 특징은 다음과 같다.

병렬 생성: 디퓨전젬마는 토큰을 한 번에 하나씩 예측하는 대신, 단계마다 최대 256개의 토큰을 디노이징한다.

젬마(Gemma) 4 기반으로 구축: 디퓨전젬마는 젬마 4를 기반으로 구축됐다. 이는 260억 개의 파라미터를 갖춘 전문가 혼합(Mixture-of-Experts, MoE) 모델이다. 단계마다 38억 개의 파라미터를 활성화하며, 구글의 젬마 4 아키텍처에 디퓨전 헤드를 결합했다.

최대 4배 향상된 성능: 단일 사용자 생성 환경에서 일반적으로 발생하는 지연 현상을 줄여 로컬 하드웨어에서도 빠른 텍스트 생성을 지원한다.

오픈 로컬 실행: 디퓨전젬마는 아파치(Apache) 2.0 라이선스 기반의 오픈 웨이트 모델로 제공되며, RTX와 DGX 스파크에서 완전히 실행된다. 클라우드나 토큰당 비용이 필요 없으며, 허깅페이스 트랜스포머(Hugging Face Transformers), vLLM, 언슬로스(Unsloth)에서 기본 지원된다.

새로운 텍스트 생성 방식

오늘날 널리 사용되는 대부분의 거대 언어 모델(large language model, LLM)은 자기회귀(autoregressive) 방식으로 작동한다. 이는 새로운 단어가 이전 단어에 의존하는 형태로, 텍스트를 토큰 단위로 하나씩 순차적으로 생성하는 방식이다. 이러한 순차적 생성 과정 때문에 대화형 AI는 마치 글자를 입력하는 것처럼 응답한다.

디퓨전젬마는 이와 다른 방식을 채택했다. 디퓨전젬마는 젬마 4 26B 전문가 혼합 아키텍처를 기반으로 구축돼, 디퓨전 모델이 이미지를 생성하는 방식과 같이 텍스트를 생성한다. 즉, 노이즈에서 시작해 텍스트 블록 전체를 한 번에 정제한다. 단일 토큰을 생성한 뒤 다음 토큰을 계산하기 위해 대기하는 대신, 각 단계에서 최대 256개의 토큰을 병렬로 디노이징한다.

그 결과, 디퓨전젬마는 텍스트를 순차적으로 생성하는 대신 블록 단위로 처리하는 모델이 됐다. 이러한 병렬 처리 방식은 레이턴시에 민감한 단일 사용자 작업에서 개발자의 사고와 반복 속도에 발맞춘 빠른 응답을 제공한다. 대화형 채팅, 에이전틱 루프, 계획과 실행을 수행하는 온디바이스 어시스턴트와 같은 작업이 여기에 해당된다.

엔비디아 GPU에서 더욱 강력해진 디퓨전젬마

토큰을 한 번에 하나씩 생성하는 방식은 본질적으로 메모리의 영향을 크게 받는다. 기존 LLM은 대부분의 시간을 연산 수행이 아닌 메모리 대역폭 대기에 사용하기 때문에 컴퓨팅 자원을 충분히 활용하지 못한다.

디퓨전 방식은 이러한 구조를 뒤바꾼다. 256개 토큰으로 구성된 전체 블록을 트랜스포머를 통해 병렬로 처리하는 워크로드는 컴퓨팅 성능에 의해 좌우된다. 여기서 엔비디아 GPU가 두각을 드러낸다. 엔비디아 텐서 코어(Tensor Core)는 대규모 병렬 연산을 가속하며, 쿠다(CUDA) 소프트웨어 스택은 별도의 튜닝 없이도 초기부터 모델의 효율적 실행을 지원한다. 이와 같이 디퓨전젬마는 GPU의 강점을 최대한 활용하도록 설계됐다.

이러한 장점은 실제 성능에서도 확인된다. 디퓨전젬마는 단일 엔비디아 H100 텐서 코어 GPU에서 초당 1,000개 토큰, 엔비디아 DGX 스파크에서 초당 150개 토큰, 엔비디아 DGX 스테이션(DGX Station)에서 최대 초당 2,000개 토큰의 성능을 제공한다. 이는 동일한 단일 사용자 환경에서 실행되는 동급 자기회귀 모델 대비 약 4배 빠른 수준이다.

이러한 성능상의 이점은 엔비디아의 제품군 전반에서 제공된다.

엔비디아 DGX 스파크 데스크사이드 개인용 AI 슈퍼컴퓨터에서 로컬 실행: 128GB 통합 메모리를 탑재한 엔비디아 GB10 그레이스 블랙웰 슈퍼칩(Grace Blackwell Superchip) 기반으로 구동되며, 프로토타이핑, 파인튜닝, 완전한 로컬 에이전트 워크플로우를 위한 엔비디아 AI 소프트웨어 스택이 사전 설치돼 있다.

엔비디아 RTX PRO 6000 워크스테이션에서 실행: 개발자와 연구자, AI 전문가는 전문 워크플로우의 일부로 로컬 저지연 생성과 에이전틱 루프가 실행할 수 있는 충분한 성능 여유를 제공한다.

DGX 스테이션에서 실행: 748GB의 통합(coherent) 메모리를 기반으로, 저지연 텍스트 생성과 에이전틱 루프를 위해 초당 최대 2,000토큰의 업계 최고 수준의 로컬 고속 추론 성능을 제공한다.

지포스 RTX GPU에서 실행: 향후 라마.cpp(llama.cpp) 지원이 추가될 예정이다.

로컬 환경에서 시작하기

허깅페이스 트랜스포머를 활용하면 모델을 가장 빠르게 테스트하고 프로토타이핑할 수 있다. 이는 지포스 RTX 5090 또는 DGX 스파크에서 별도 설정 없이 디퓨전젬마 실행을 기본 지원한다. 더 높은 처리량의 추론이 필요한 경우에는 vLLM을 활용하면 된다.

특정 작업이나 도메인에 맞게 모델을 적용하려는 경우, 언슬로스와 엔비디아 네모(NeMo) 프레임워크를 통해 파인튜닝을 수행할 수 있다. 또한 로컬 환경을 신속하게 실행할 수 있도록 사전 구성된 DGX 스파크 플레이북도 제공된다. DGX 스파크, RTX PRO, DGX 스테이션용 vLLM 플레이북은 현재 열람 가능하다.

허깅페이스에서 디퓨전젬마를 직접 사용해 보거나, build.nvidia.com에서 엔비디아가 호스팅하는 애플리케이션 프로그래밍 인터페이스를 통해 무료로 테스트할 수 있다.

아키텍처와 로컬 배포에 대해 더 자세히 알아보려면 엔비디아 기술 블로그와 구글 딥마인드 발표를 참고하면 된다.

RTX AI 개러지 최신 업데이트 사항

엔비디아 연구진이 SANA-WM을 공개했다. 이는 단일 이미지와 카메라 경로만으로 정밀한 6-DoF 제어가 가능한 720p 해상도의 1분 길이 비디오를 생성하는 오픈소스 월드 모델이다. 26억 개 파라미터 규모의 증류 버전은 NVFP4 포맷을 활용해 단일 지포스 RTX 5090 GPU에서 34초 만에 60초 분량의 비디오를 생성할 수 있다. 이는 단일 GPU에서 실행되면서도 유사한 오픈 모델 대비 최대 36배 높은 처리량을 제공한다. 여기에서 관련 논문을 확인할 수 있다.

윈도우(Windows) 에이전트 구축 환경이 한층 강화됐다. 엔비디아와 마이크로소프트(Microsoft)는 기본 윈도우 환경에서 활용 가능한 턴키 에이전트 샌드박싱 기능을 공개했다. 이는 마이크로소프트 실행 컨테이너(eXecution Containers)와 엔비디아 오픈쉘(OpenShell) 런타임을 제공하는 동시에, 에이전틱 추론 속도를 최대 2배 향상시키고 헤르메스 에이전트(Hermes Agent)의 기본 윈도우 지원을 추가했다.

DGX 스파크는 개봉 후 몇 분 만에 에이전트를 실행할 수 있는 환경을 제공한다. 간소화된 엔비디아 네모클로(NemoClaw) 설치 과정을 통해 개발자는 로컬 에이전트를 빠르게 활용할 수 있으며, 큐원(Qwen) 3.6-35B는 vLLM에서 최대 2.6배 빠르게 실행된다. 또한 엔비디아 싱크(Sync)의 새로운 클러스터 어시스턴트는 최대 4대의 DGX 스파크를 하나의 512GB 풀로 연결해 약 4,000억 개 파라미터 규모의 모델을 실행할 수 있다.

페이스북(Facebook), 인스타그램(Instagram), 틱톡(TikTok), X에서 RTX 스파크에 연결하고 RTX 스파크 뉴스레터를 구독해 최신 소식을 받아볼 수 있다.

여기에서 소프트웨어 제품 정보 약관을 확인할 수 있다.

엔비디아, NVIDIA, 구글 딥마인드, Google DeepMind, 로컬 PC부터, 클라우드, 환경까지, 로컬 AI, 위한, 구글 딥마인드 디퓨전젬마, 디퓨전젬마, DiffusionGemma, 가속화

﻿로컬 PC부터 클라우드 환경까지, 엔비디아 로컬 AI 위한 구글 딥마인드 디퓨전젬마 가속화

IT | ﻿로컬 PC부터 클라우드 환경까지, 엔비디아 로컬 AI 위한 구글 딥마인드 디퓨전젬마 가속화

로컬 PC부터 클라우드 환경까지, 엔비디아 로컬 AI 위한 구글 딥마인드 디퓨전젬마 가속화

IT | 로컬 PC부터 클라우드 환경까지, 엔비디아 로컬 AI 위한 구글 딥마인드 디퓨전젬마 가속화