IT | 로컬 에이전틱 AI 지원, 엔비디아 RTX PC·DGX 스파크에서 ‘젬마 4’ 가속
엔비디아(www.nvidia.co.kr)가 엔비디아(NVIDIA) RTX PC, DGX 스파크(DGX Spark), 엣지 디바이스에서 구글 젬마 4(Google Gemma 4)의 강력한 추론, 코딩, 멀티모달 AI 기능을 지원한다고 밝혔다.
온디바이스 AI 시대를 이끄는 오픈 모델은 이제 클라우드를 넘어 일상적인 디바이스까지 혁신하고 있다. 오픈 모델이 발전함에 따라, 의미 있는 인사이트를 실제 행동으로 연결하는 실시간 로컬 컨텍스트 접근성이 핵심 요소로 부상하고 있다.
![]()
이러한 변화에 맞춰 설계된 구글의 최신 젬마 4 제품군은 다양한 디바이스에서 효율적인 로컬 실행을 지원하는 소형 고속 다기능 모델을 새롭게 선보인다.
엔비디아와 구글은 젬마 4를 엔비디아 GPU에 최적화하기 위해 협력했다. 이를 통해 데이터센터부터 엔비디아 RTX 기반 PC와 워크스테이션, 개인용 AI 슈퍼컴퓨터인 엔비디아 DGX 스파크, 엔비디아 젯슨 오린 나노(Jetson Orin Nano) 엣지 AI 모듈에 이르기까지 다양한 환경에서 효율적인 성능을 구현할 수 있다.
젬마 4, 엔비디아 GPU에 최적화된 콤팩트 모델
젬마 4 오픈 모델 제품군의 최신 라인업인 E2B, E4B, 26B, 31B 모델은 엣지 디바이스부터 고성능 GPU까지 효율적인 배포를 위해 설계됐다.
![]()
모든 구성은 엔비디아 지포스 RTX 5090과 맥 M3 울트라(Mac M3 Ultra) 데스크톱에서 Q4_K_M 양자화를 적용하고, BS = 1, ISL = 4096, OSL = 128 조건으로 측정됐다. 토큰 생성 처리량은 라마.cpp(llama.cpp) b7789에서 라마 벤치 도구를 활용해 산출됐다.
새롭게 등장한 콤팩트 모델은 다음과 같은 다양한 작업을 지원한다.
추론: 복잡한 문제 해결 작업에서 강력한 성능 제공
코딩: 개발자 워크플로우를 위한 코드 생성과 디버깅 지원
에이전트: 구조화된 도구 사용(함수 호출) 기본 지원
비전·비디오·오디오 기능: 객체 인식, 자동 음성 인식, 문서·비디오 인텔리전스를 위한 다양한 멀티모달 상호작용 지원
인터리브드(Interleaved) 멀티모달 입력: 하나의 프롬프트에서 텍스트와 이미지를 자유롭게 혼합
다중 언어: 35개 이상 언어 기본 지원, 140개 이상 언어로 사전 훈련
E2B와 E4B 모델은 초저지연·고효율 엣지 추론을 위해 설계됐으며, 젯슨 나노 모듈을 포함한 다양한 디바이스에서 사실상 레이턴시 없이 완전한 오프라인으로 실행할 수 있다.
26B와 31B 모델은 고성능 추론과 개발자 중심 워크플로우에 최적화돼 에이전틱 AI에 적합하다. 이들 모델은 최첨단 수준의 추론 성능을 제공하면서도 접근성을 유지하도록 설계됐으며, 엔비디아 RTX GPU와 DGX 스파크에서 효율적으로 실행돼 개발 환경, 코딩 어시스턴트, 에이전트 기반 워크플로우를 지원한다.
로컬 에이전틱 AI가 확산됨에 따라 오픈클로(OpenClaw)와 같은 애플리케이션은 RTX PC, 워크스테이션, DGX 스파크에서 항상 실행되는 AI 어시스턴트를 구현하고 있다. 최신 젬마 4 모델은 오픈클로와 호환되며, 개인 파일과 애플리케이션, 워크플로우의 컨텍스트를 활용해 작업을 자동화하는 로컬 에이전트를 구축할 수 있다. 여기에서 RTX GPU와 DGX 스파크에서 오픈클로를 무료로 실행하는 방법을 알아볼 수 있다. 또는 DGX 스파크 오픈클로 플레이북을 통해서도 확인 가능하다.
여기에서 구글 딥마인드(Google DeepMind)가 발표한 젬마 4 제품군의 최신 업데이트 사항을 확인할 수 있다.
RTX GPU와 DGX 스파크에서 젬마 4 활용
엔비디아는 올라마(Ollama), 라마.cpp와 협력해 각 젬마 4 모델에 최적화된 로컬 배포 환경을 제공하고 있다.
사용자는 올라마를 다운로드해 젬마 4 모델을 로컬에서 실행하거나, 라마.cpp를 설치하고 젬마 4 GGUF 허깅페이스(Hugging Face) 체크포인트와 연동해 사용할 수 있다. 또한 언슬로스(Unsloth)는 최적화·양자화된 모델을 통해 언슬로스 스튜디오(Unsloth Studio)에서 효율적인 로컬 파인튜닝과 배포를 지원한다. 지금 바로 언슬로스 스튜디오에서 젬마 4를 실행하고 파인튜닝을 시작할 수 있다.
젬마 4 제품군을 비롯한 오픈 모델을 엔비디아 GPU에서 실행하면 엔비디아 텐서 코어(Tensor Core)가 AI 추론 워크로드를 가속해 더 높은 처리량과 낮은 레이턴시를 제공한다. 이를 통해 최적의 성능을 구현할 수 있으며, 쿠다(CUDA) 소프트웨어 스택은 다양한 프레임워크와 도구 전반에 걸친 폭넓은 호환성을 보장해 신규 모델을 빠르게 실행할 수 있도록 지원한다.
이러한 조합을 통해 젬마 4와 같은 오픈 모델은 엣지의 젯슨 오린 나노부터 RTX PC, 워크스테이션, DGX 스파크에 이르기까지 다양한 시스템에서 별도의 대규모 최적화 없이 원활하게 실행된다.
여기에서 엔비디아 GPU에서 젬마 4를 시작하는 방법과 오픈 모델 관련 엔비디아의 다양한 활동을 확인할 수 있다.
RTX AI PC 최신 업데이트 사항
RTX AI 개러지(RTX AI Garage) 블로그를 통해 엔비디아 GTC에서 공개된 다양한 에이전틱 AI 관련 발표를 확인할 수 있다. 로컬 에이전트를 위한 신규 오픈 모델인 엔비디아 네모트론 3 나노 4B(Nemotron 3 Nano 4B)와 네모트론 3 슈퍼 120B(Nemotron 3 Super 120B), 큐원 3.5(Qwen 3.5)와 미스트랄 스몰 4(Mistral Small 4)에 대한 최적화가 포함된다.
엔비디아는 최근 오픈클로 경험을 엔비디아 디바이스에서 최적화하기 위해 보안을 강화하고 로컬 모델을 지원하는 오픈소스 스택인 엔비디아 네모클로(NemoClaw)를 소개했다.
어컴플리시.ai(Accomplish.ai)는 내장 모델을 포함한 오픈 소스 데스크톱 AI 에이전트의 무료 버전인 어컴플리시 프리(Accomplish FREE)를 발표했다. 이 에이전트는 엔비디아 GPU를 활용해 오픈 웨이트 모델을 로컬에서 실행한다. 동시에 하이브리드 라우터를 통해 로컬 RTX 하드웨어와 클라우드 간 워크로드를 동적으로 분산하며, 애플리케이션 프로그래밍 인터페이스 키 없이도 빠르고 안전하며 간단한 실행을 지원한다.
페이스북(Facebook), 인스타그램(Instagram), 틱톡(TikTok), X에서 엔비디아 AI PC에 연결하고 RTX AI PC 뉴스레터를 구독해 최신 소식을 받아볼 수 있다.
링크드인(LinkedIn)과 X에서 엔비디아 워크스테이션(Workstation)을 팔로우할 수 있다.
엔비디아, NVIDIA, 로컬 에이전틱 AI, 지원, RTX PC, DGX 스파크에서, 젬마 4, Gemma 4, Google Gemma 4, 구글 젬마 4, 가속







