에이전틱 AI 시대 개막, 엔비디아 베라 루빈 공개

IT | 에이전틱 AI 시대 개막, 엔비디아 베라 루빈 공개

권경욱 기자 IT 0 0 03.17 12:15

엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 미국 새너제이에서 열린 세계 최대 AI·가속 컴퓨팅 콘퍼런스인 ‘엔비디아(NVIDIA) GTC 2026’에서 엔비디아 베라 루빈(Vera Rubin) 플랫폼이 에이전틱 AI의 새로운 지평을 열어가고 있으며, 세계 최대 규모 AI 팩토리 확장을 위해 7종의 신규 칩 양산을 시작했다고 발표했다.

이 플랫폼은 엔비디아 베라 CPU(Vera CPU), 엔비디아 루빈 GPU, 엔비디아 NV링크™ 6 스위치(NVLink™ 6 Switch), 엔비디아 커넥트X®-9 슈퍼NIC(ConnectX®-9 SuperNIC), 엔비디아 블루필드®-4 DPU(BlueField®-4 DPU), 엔비디아 스펙트럼™-6 이더넷 스위치(Spectrum™-6 Ethernet Switch), 그리고 새롭게 통합된 엔비디아 그록 3 LPU(Groq 3 LPU)를 포함한다. 하나의 강력한 AI 슈퍼컴퓨터로 작동하도록 설계된 이 칩들은 대규모 사전·사후 훈련, 테스트 시점 확장부터 실시간 에이전틱 추론까지 AI의 전 단계를 지원한다.

엔비디아 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “베라 루빈은 세대를 뛰어넘는 도약이다. 7개의 혁신적인 칩, 5개의 랙, 하나의 거대한 슈퍼컴퓨터가 AI의 모든 단계를 지원하기 위해 구축됐다. 이제 에이전틱 AI의 전환점이 도래했으며, 베라 루빈이 역사상 가장 위대한 인프라 구축을 본격화하고 있다”고 말했다.

앤트로픽(Anthropic) CEO 겸 공동 창립자 다리오 아모데이(Dario Amodei)는 “기업과 개발자들은 점점 더 복잡한 추론, 에이전틱 워크플로우, 미션 크리티컬 의사결정을 위해 클로드(Claude)를 활용하고 있다. 이를 위해서는 이러한 변화에 발맞출 수 있는 인프라가 필요하다. 엔비디아 베라 루빈 플랫폼은 서비스를 지속적으로 제공하는 데 필요한 컴퓨팅, 네트워킹, 시스템 설계 역량을 제공하며, 고객의 안전성과 신뢰성을 한층 더 높여준다”고 말했다.

오픈AI(OpenAI) CEO 샘 올트먼(Sam Altman)은 “엔비디아 인프라는 우리가 AI의 지평을 계속 넓혀갈 수 있게 하는 기반이다. 엔비디아 베라 루빈을 통해 더 강력한 모델과 에이전트를 대규모로 구동하고, 수억 명의 사용자에게 더 빠르고 더 안정적인 시스템을 제공할 것”이라고 말했다.

POD 규모 시스템으로의 전환

AI 인프라는 개별 칩과 독립형 서버에서 완전 통합형 랙 규모 시스템, POD 규모 배치, AI 팩토리, 소버린 AI(sovereign AI)로 빠르게 진화하고 있다. 이러한 발전은 성능을 획기적으로 끌어올리고, 스타트업, 중견기업, 공공·민관 기관, 대기업에 이르기까지 모든 규모와 산업 분야의 비용 효율성을 개선한다. 동시에 AI 접근성을 에너지 효율을 개선해 세계에서 가장 까다로운 워크로드를 구동하는 데 기여하고 있다.

엔비디아 베라 루빈은 컴퓨팅, 네트워킹, 스토리지 전반에 걸친 긴밀한 공동 설계를 통해, 글로벌 공급망을 갖춘 80개 이상의 엔비디아 MGX 생태계 파트너가 이를 지원한다. 또한 가장 광범위한 엔비디아 POD 규모 플랫폼을 제공하며, 이는 AI 전용으로 설계된 여러 랙이 하나의 거대하고, 일관된 통합 시스템으로 작동하는 슈퍼컴퓨터다.

엔비디아 베라 루빈 NVL72 랙

NV링크 6로 연결된 72개의 루빈 GPU와 36개의 베라 CPU, 커넥트X-9 슈퍼NIC, 블루필드-4 DPU를 통합한 베라 루빈 NVL72는 획기적인 효율성을 제공한다. 엔비디아 블랙웰 플랫폼 대비 4분의 1 수준의 GPU 수로 대규모 전문가 혼합(mixture-of-experts, MoE) 모델을 훈련시키고, 토큰당 비용은 10분의 1 수준으로 유지하며, 와트당 추론 처리량을 최대 10배까지 향상시킨다.

전 세계 하이퍼스케일 AI 팩토리를 위해 설계된 NVL72는 엔비디아 퀀텀-X800 인피니밴드(Quantum-X800 InfiniBand)와 스펙트럼-X 이더넷과 원활하게 확장된다. 이를 통해 대규모 GPU 클러스터 전반에서 높은 활용도를 유지하는 동시에 훈련 시간을 줄이고 총소유비용을 절감한다.

엔비디아 베라 CPU 랙

강화학습과 에이전틱 AI 워크로드는 GPU 시스템 모델에서 생성된 결과를 테스트, 검증하기 위해 다수의 CPU 기반 환경에 의존한다.

엔비디아 베라 CPU 랙은 엔비디아 MGX 기반의 고밀도 액체 냉각 인프라를 제공하며, 256개의 베라 CPU를 통합해 확장 가능하고 에너지 효율적인 용량을 제공한다. 이를 통해 세계 최고 수준의 단일 스레드 성능을 통해 대규모 에이전틱 AI를 구현한다.

스펙트럼-X 이더넷 네트워킹과 통합된 베라 CPU 랙은 AI 팩토리 전반에 걸쳐 CPU 환경을 긴밀하게 동기화한다. GPU 컴퓨팅 랙과 함께 대규모 에이전틱 AI와 강화 학습을 위한 CPU 기반을 제공하며, 베라는 기존 CPU 대비 2배 높은 효율성과 50% 더 빠른 속도로 결과를 제공한다.

엔비디아 그록 3 LPX 랙

엔비디아 그록 3 LPX는 가속 컴퓨팅의 새로운 이정표로, 에이전틱 시스템의 저지연과 대규모 컨텍스트 요구사항을 충족하도록 설계됐다. LPX와 베라 루빈의 뛰어난 성능과 결합해 메가와트당 최대 35배 더 높은 추론 처리량을 제공하고, 1조 파라미터 모델 기준 최대 10배 더 높은 수익 기회를 창출한다.

대규모 환경에서 LPU 플릿(fleets)은 빠르고 결정적인 추론을 위한 단일 논리 프로세서로 작동한다. 256개의 LPU 프로세서를 탑재한 LPX 랙은 128GB 온칩 SRAM과 초당 640TB의 확장형 대역폭을 제공한다. 베라 루빈 NVL72에 탑재된 루빈 GPU와 LPU는 AI 모델의 모든 출력 토큰의 각 레이어를 공동으로 연산해, 디코딩을 가속화한다.

1조 파라미터 모델과 100만 토큰 컨텍스트에 최적화된 공동 설계형 LPX 아키텍처는 베라 루빈과 결합해 전력, 메모리, 컴퓨팅 전반의 효율성을 극대화한다. 또한 와트당 처리량과 토큰당 성능을 높여 수조 파라미터, 백만 컨텍스트 기반의 초고성능 추론이라는 새로운 성능 단계를 구현한다. 완전 액체 냉각 방식과 MGX 인프라 기반으로 구축된 LPX는 차세대 베라 루빈 AI 팩토리에 원활하게 통합될 수 있도록 설계됐으며, 올해 하반기 출시될 예정이다.

엔비디아 블루필드-4 STX 스토리지 랙

엔비디아 블루필드-4 STX 랙 규모 시스템은 GPU 메모리를 POD 전반에 원활하게 확장하는 AI 네이티브 스토리지 인프라다. STX는 엔비디아 베라 CPU와 엔비디아 커넥트X-9 슈퍼NIC을 결합한 블루필드-4로 구동된다. 이를 통해 거대 언어 모델(large language model, LLM)과 에이전틱 AI 워크플로우에서 생성되는 대규모 키-값(KV) 캐시 데이터를 저장하고 검색하는 데 최적화된 고대역폭 공유 계층을 제공한다.

엔비디아 도카 메모스™(DOCA Memos™)는 블루필드-4 스토리지를 극대화하는 새로운 도카 프레임워크로, 전용 KV 캐시 스토리지 처리를 통해 추론 처리량을 최대 5배까지 높이고, 일반 스토리지 아키텍처 대비 전력 효율을 크게 향상시킨다. 그 결과, POD 전반에 걸친 컨텍스트를 통해 AI 에이전트와의 더 빠른 멀티턴(multi-turn) 상호작용을 구현하고, AI 서비스의 확장성과 전체 인프라 활용도를 향상시킨다.

미스트랄 AI(Mistral AI) 공동 창립자 겸 CTO 티모테 라크루아(Timothée Lacroix)는 “엔비디아 블루필드-4 STX 랙 규모 컨텍스트 메모리 스토리지 시스템은 우리의 에이전틱 AI 개발을 기하급수적으로 확장하는 데 필요한 핵심적인 성능 향상을 지원할 것이다. STX는 AI 에이전트 메모리를 위해 특별히 설계된 새로운 스토리지 계층을 제공함으로써, 모델이 방대한 데이터셋을 추론할 때에도 일관성과 속도를 유지할 수 있는 이상적인 솔루션”이라고 말했다.

엔비디아 스펙트럼-6 SPX 이더넷 랙

스펙트럼-6 SPX 이더넷은 AI 팩토리 전반의 동서(east-west) 트래픽을 가속하도록 설계됐다. 스펙트럼-X 이더넷 또는 엔비디아 퀀텀-X800 인피니밴드 스위치와 함께 구성할 수 있으며, 대규모 환경에서 저지연·고처리량의 랙 간 연결을 제공한다.

광학 모듈이 통합된 스펙트럼-X 이더넷 포토닉스(Spectrum-X Ethernet Photonics)는 기존 플러그형 트랜시버 대비 최대 5배 높은 광 전력 효율과 10배 높은 복원력을 제공한다.

복원력과 에너지 효율성 향상

엔비디아는 200개 이상의 데이터센터 인프라 파트너와 함께 베라 루빈을 위한 엔비디아 DSX 플랫폼을 발표했다. 여기에는 DSX 맥스-Q(DSX Max-Q)가 포함되며, 이는 AI 팩토리 전체에 동적 전력 프로비저닝(provisioning)을 통해, 전력이 고정된 데이터센터에서 최대 30% 더 많은 AI 인프라 구축을 지원한다. 새로운 DSX 플렉스(DSX Flex) 소프트웨어는 AI 팩토리를 전력망 유연성을 갖춘 에셋으로 전환해, 100기가와트 규모의 유휴 전력을 활용할 수 있다.

또한 엔비디아는 베라 루빈 DSX AI 팩토리 레퍼런스 디자인(Vera Rubin DSX AI Factory reference design) 을 공개했다. 이는 와트당 토큰 수와 전체 처리량을 극대화하고, 시스템 복원력을 높이며, 초기 프로덕션까지 걸리는 시간을 단축하는 공동 설계 AI 인프라의 블루프린트(blueprint)를 제공한다. 이 아키텍처는 컴퓨팅, 네트워킹, 스토리지, 전력, 냉각을 긴밀하게 통합함으로써, 에너지 효율성을 높이고 AI 팩토리가 지속적인 고강도 워크로드 환경에서도 최대 가동 시간을 유지하며 안정적으로 확장될 수 있도록 지원한다.

광범위한 생태계 지원

베라 루빈 기반 제품은 올해 하반기부터 파트너사를 통해 제공될 예정이다. 여기에는 아마존 웹 서비스(Amazon Web Services), 구글 클라우드(Google Cloud), 마이크로소프트 애저(Microsoft Azure), 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure) 등 주요 클라우드 제공업체와 함께, 엔비디아 클라우드 파트너(Cloud Partners)인 코어위브(CoreWeave), 크루소(Crusoe), 람다(Lambda), 네비우스(Nebius), 엔스케일(Nscale), 투게더 AI(Together AI)가 포함된다.

글로벌 시스템 제조업체인 시스코(Cisco), 델 테크놀로지스(Dell Technologies), HPE, 레노버(Lenovo), 슈퍼마이크로(Supermicro)는 베라 루빈 기반 제품을 탑재한 다양한 서버를 공급할 것으로 예상된다. 여기에는 에이브레스(Aivres), 에이수스(ASUS), 폭스콘(Foxconn), 기가바이트(GIGABYTE), 인벤텍(Inventec), 페가트론(Pegatron), 퀀타 클라우드 테크놀로지(Quanta Cloud Technology, QCT), 위스트론(Wistron), 위윈(Wiwynn) 등도 포함된다.

앤트로픽, 메타(Meta), 미스트랄 AI, 오픈AI를 포함한 AI 연구소와 최첨단 모델 개발사들은 엔비디아 베라 루빈 플랫폼을 활용해 더 크고 성능이 뛰어난 모델을 훈련시키고, 이전 GPU 세대보다 더 낮은 지연 시간과 비용으로 긴 컨텍스트 멀티모달 시스템을 제공할 계획이다.

엔비디아, NVIDIA, GTC, GTC 2026, 에이전틱 AI, 시대, 개막, 엔비디아 베라 루빈, Vera Rubin, 공개

﻿에이전틱 AI 시대 개막, 엔비디아 베라 루빈 공개

IT | ﻿에이전틱 AI 시대 개막, 엔비디아 베라 루빈 공개

에이전틱 AI 시대 개막, 엔비디아 베라 루빈 공개

IT | 에이전틱 AI 시대 개막, 엔비디아 베라 루빈 공개