IT | 엔비디아·AWS·구글·마이크로소프트·OCI와 협력, 다이나모 기반 AI 추론 가속화
엔비디아(www.nvidia.co.kr)가 엔비디아 다이나모(NVIDIA Dynamo)를 통해 멀티 노드 추론 성능과 효율성을 향상시키고, 아마존웹서비스(Amazon Web Services, AWS), 구글 클라우드(Google Cloud), 마이크로소프트 애저(Microsoft Azure), 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure, OCI) 등 주요 클라우드 제공업체와 통합해 AI 추론 가속화를 지원한다고 밝혔다.
![]()
엔비디아 블랙웰(Blackwell)은 최근 세미애널리시스(SemiAnalysis)가 실시한 독립형 인퍼런스MAX(InferenceMAX) v1 벤치마크에서 테스트된 모든 모델과 활용 사례 전반에 걸쳐 가장 높은 성능과 효율성, 그리고 가장 낮은 총소유비용(total cost of ownership, TCO)을 제공했다.
![]()
엔비디아 창립자 겸 CEO 젠슨 황(Jensen Huang)이 엔비디아 GTC 워싱턴 D.C.에서 블랙웰이 엔비디아 호퍼(Hopper) 대비 10배의 성능을 제공해 10배의 수익을 창출할 수 있다고 강조했다.
대규모 전문가 혼합 방식(mixture-of-experts, MoE) 모델과 같은 오늘날 가장 복잡한 AI 모델에서 이러한 업계 최고 수준의 성능을 달성하려면, 수백만 명의 동시 사용자에게 서비스를 지원하고 더 빠른 응답을 제공하기 위해 추론 작업을 여러 서버(노드)로 분산시켜야 한다.
엔비디아 다이나모 소프트웨어 플랫폼은 이러한 강력한 멀티 노드 기능을 프로덕션 환경에서 지원해, 기업이 기존 클라우드 환경 전반에서도 동일한 벤치마크 최고 수준의 성능과 효율성을 달성할 수 있다.
최적화된 성능을 위한 분산 추론 활용
단일 GPU 또는 서버에 탑재 가능한 AI 모델의 경우, 개발자들은 높은 처리량을 제공하기 위해 여러 노드에 걸쳐 동일한 모델 복제본을 병렬로 실행하는 경우가 많다. 시그널65(Signal65) 수석 애널리스트인 러스 펠로우즈(Russ Fellows)는 최근 발표한 논문에서 이 접근법이 72개의 엔비디아 블랙웰 울트라(Ultra) GPU를 활용해 110만 토큰 처리 속도(Tokens Per Second, TPS)라는 업계 최초의 기록적인 처리량을 달성했다고 밝혔다.
AI 모델을 확장해 다수의 동시 사용자를 실시간으로 지원하거나, 입력 시퀀스가 긴 고난도 워크로드를 처리할 때, 분산형 서빙(disaggregated serving) 기술을 활용하면 성능과 효율성을 더욱 향상시킬 수 있다.
AI 모델 서비스는 입력 프롬프트를 처리하는 프리필(prefill)과 출력을 생성하는 디코드(decode) 두 단계로 구성된다. 기존 방식에서는 두 단계 모두 동일한 GPU에서 실행됐는데, 이로 인해 비효율성과 리소스 병목 현상을 유발할 수 있었다.
분산형 서빙은 이러한 문제를 각각 독립적으로 최적화된 GPU로 작업을 지능적으로 분산함으로써 해결한다. 이를 통해 워크로드의 각 부분이 해당 작업에 가장 적합한 최적화 기법을 활용해 실행되도록 보장해 전체 성능을 극대화한다. 딥시크-R1(DeepSeek-R1)과 같은 최신 대규모 AI 추론과 MoE 모델에서는 분산 서비스가 필수적이다.
엔비디아 다이나모는 이러한 분산형 서빙 기능을 GPU 클러스터 전반에서 프로덕션 규모로 손쉽게 구현할 수 있도록 하며, 이미 그 가치를 입증하고 있다.
예를 들어, 베이스텐(Baseten)은 엔비디아 다이나모를 활용해 장문 코드 생성을 위한 추론 서비스 속도를 2배 가속화하고 처리량을 1.6배 증가시켰으며, 이는 추가 하드웨어 비용 없이 이뤄졌다. 이러한 소프트웨어 기반의 성능 향상은 AI 제공업체가 인텔리전스를 생산하는 비용을 크게 절감할 수 있도록 한다.
클라우드 환경에서 분산 추론 확장하기
대규모 AI 훈련에서 그랬던 것처럼, 컨테이너화된 애플리케이션 관리의 업계 표준인 쿠버네티스(Kubernetes)는 엔터프라이즈 규모의 AI 배포를 위해 수십 개 또는 수백 개의 노드에 걸쳐 분산형 서빙을 확장하는 데 최적화돼 있다.
현재 엔비디아 다이나모가 주요 클라우드 제공업체의 관리형 쿠버네티스 서비스에 통합됨에 따라, 고객은 GB200, GB300 NVL72를 포함한 엔비디아 블랙웰 시스템 전반에서 멀티 노드 추론을 확장할 수 있으며, 이는 엔터프라이즈 AI 배포에 요구되는 성능, 유연성, 안정성을 제공한다.
· AWS: 엔비디아 다이나모와 아마존 EKS를 통합해 고객의 생성형 AI 추론을 가속화한다.
· 구글 클라우드: AI 하이퍼컴퓨터(Hypercomputer)에서 엔터프라이즈 규모의 거대 언어 모델(large language model, LLM) 추론을 최적화하기 위해 다이나모 레시피를 제공한다.
· 마이크로소프트 애저: 애저 쿠버네티스 서비스에서 엔비디아 다이나모와 ND GB200-v6 GPU를 활용한 멀티 노드 LLM 추론을 지원한다.
· OCI: OCI 슈퍼클러스터(OCI Superclusters)와 엔비디아 다이나모를 활용한 멀티 노드 LLM 추론을 지원한다.
대규모 멀티 노드 추론을 실현하려는 움직임은 하이퍼스케일러(hyperscalers)를 넘어 확장되고 있다.
예를 들어, 네비우스(Nebius)는 엔비디아 가속 컴퓨팅 인프라를 기반으로 대규모 추론 워크로드를 처리할 수 있는 클라우드를 설계하고 있으며, 엔비디아 다이나모와 생태계 파트너로서 협력하고 있다.
엔비디아 다이나모의 엔비디아 그로브로 쿠버네티스 추론 간소화
분산형 AI 추론은 프리필, 디코드, 라우팅(routing) 등 서로 다른 요구사항을 가진 특수 구성 요소들을 조율해야 한다. 쿠버네티스가 직면한 과제는 더 많은 모델 복제본을 병렬로 실행하는 것이 아니라, 이 다양한 구성 요소들을 하나의 통합된 고성능 시스템으로 능숙하게 운영하는 것이다.
엔비디아 그로브(Grove)는 엔비디아 다이나모에서 사용 가능한 API(application programming interface)로, 사용자에게 전체 추론 시스템을 설명하는 단일 고수준 사양을 제공한다.
예를 들어, 사용자는 단일 사양 안에서 “프리필에는 GPU 노드 3개, 디코드에는 GPU 노드 6개가 필요하며, 가능한 가장 빠른 응답을 위해 단일 모델 복제본의 모든 노드가 동일한 고속 인터커넥트에 배치돼야 한다”고 간단히 요구할 수 있다.
해당 사양을 기반으로 그로브는 모든 복잡한 조율 작업을 자동으로 처리한다. 이때, 관련 구성 요소를 정확한 비율과 종속성을 유지한 채 함께 확장하고, 올바른 순서로 실행하며, 빠르고 효율적인 통신을 위해 클러스터 전반에 전략적으로 배치한다.
AI 추론이 점점 더 분산됨에 따라, 쿠버네티스, 엔비디아 다이나모, 엔비디아 그로브의 조합은 개발자가 지능형 애플리케이션을 구축하고 확장하는 방식을 간소화한다.
엔비디아의 대규모 AI 시뮬레이션(AI-at-scale simulation)을 통해 하드웨어와 배포 방식 선택이 성능, 효율성, 사용자 경험에 미치는 영향을 확인할 수 있다. 여기에서 분산형 서빙에 대한 자세한 내용과 다이나모, 엔비디아 GB200 NVL72 시스템이 어떻게 협력해 추론 성능을 향상시키는지 확인할 수 있다.
여기에서 엔비디아 그로브에 대한 자세한 내용을 확인할 수 있다.
엔비디아 띵크 스마트(Think SMART) 뉴스레터는 엔비디아 풀스택 추론 플랫폼의 최신 혁신을 통해 선도적인 AI 서비스 제공업체, 개발자, 기업이 추론 성능과 투자 대비 수익(ROI)을 향상시킬 수 있는 방안을 다루는 시리즈로, 구독을 통해 월간 소식을 확인할 수 있다.
엔비디아, NVIDIA, AWS, 구글, 마이크로소프트, OCI, 와, 협력, 다이나모, 기반, AI 추론, 가속화







