GTC | AI 팩토리용 추론 운영 체제 공개, 엔비디아 다이나모 프로덕션 단계 진입
엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 미국 새너제이에서 열린 세계 최대 AI·가속 컴퓨팅 콘퍼런스인 ‘엔비디아(NVIDIA) GTC 2026’에서 대규모 생성형·에이전틱 추론을 위한 오픈소스 소프트웨어인 엔비디아 다이나모(Dynamo) 1.0을 발표했다.
다이나모 1.0은 전 세계적으로 폭넓게 채택되고 있으며, 엔비디아 블랙웰(Blackwell) 플랫폼과 함께 클라우드 제공업체, AI 혁신 기업, 글로벌 기업들이 압도적인 확장성, 효율성, 속도로 고성능 AI 추론을 제공할 수 있도록 지원한다.
에이전틱 AI 시스템이 산업 전반에서 실제 프로덕션 단계로 확산되면서, 데이터센터 내 추론 확장은 자원 오케스트레이션(orchestration)의 난제로 떠오르고 있다. 이는 다양한 규모와 모달리티를 가진 요청과 성능 기준이 예측 불가능한 방식으로 동시에 발생하기 때문이다.
컴퓨터의 운영 체제가 하드웨어와 애플리케이션을 조율하듯, 다이나모 1.0은 AI 팩토리의 분산형 ‘운영 체제’ 역할을 수행한다. 이를 통해 클러스터 전반의 GPU와 메모리 리소스를 유기적으로 조율해, 복잡한 AI 워크로드를 지원한다. 최근 업계 벤치마크에서 다이나모는 엔비디아 블랙웰 GPU의 추론 성능을 최대 7배까지 향상시켰으며, 무료 오픈소스 소프트웨어를 통해 수백만 대의 GPU에서 토큰 비용을 낮추고, 수익 창출 기회를 확대했다.
엔비디아 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “추론은 인텔리전스의 엔진으로 모든 쿼리, 에이전트, 애플리케이션을 구동한다. 엔비디아 다이나모를 통해 우리는 AI 팩토리를 위한 최초의 ‘운영 체제’를 구축했다. 엔비디아 생태계 전반에 걸친 다이나모의 급속한 확산은 에이전틱 AI의 새로운 흐름이 이미 시작됐음을 보여주며, 엔비디아는 이를 전 세계적 규모에서 지원하고 있다”고 말했다.
다이나모 1.0은 더 정교한 ‘트래픽 제어(traffic control)’ 기능과 GPU·저비용 스토리지 간 데이터 이동 기능을 추가해 추론 작업을 여러 GPU에 분산한다. 이를 통해 불필요한 연산을 줄이고, 메모리 제약을 완화한다. 에이전틱 AI와 긴 프롬프트 환경에서는 이전 단계에서 생성된 관련 ‘단기 메모리(short-term memory)’를 가장 많이 보유한 GPU로 요청을 라우팅하고, 필요하지 않을 경우에는 해당 메모리를 오프로드(offload)할 수 있다.
엔비디아 추론 플랫폼, 성장 가속화
엔비디아는 다이나모와 엔비디아 텐서RT™-LLM(TensorRT™-LLM) 라이브러리 최적화 기술을 랭체인(LangChain), llm-d, LMCache, SG랭(SGLang), vLLM 등 공급업체의 주요 프레임워크에 통합해 오픈소스 생태계를 활성화하고 있다. 또한 지능형 메모리 관리를 위한 KVBM, GPU 간 고속 데이터 이동을 위한 엔비디아 NIXL, 스케일링 간소화를 위한 엔비디아 그로브(Grove) 등 다이나모의 핵심 구성 요소를 독립 모듈 형태로 제공한다. 아울러 엔비디아는 텐서RT-LLM 쿠다®(CUDA®) 커널을 플래시인퍼(FlashInfer) 프로젝트에 제공해, 오픈소스 프레임워크에 네이티브 방식으로 통합될 수 있도록 지원하고 있다.
엔비디아 추론 플랫폼은 AI 생태계 전반에서 다음과 같은 기업들에서 지원되고 있다.
l 클라우드 서비스 제공업체: 아마존 웹 서비스(Amazon Web Services, AWS), 마이크로소프트 애저(Microsoft Azure), 구글 클라우드(Google Cloud), OCI
l 엔비디아 클라우드 파트너사: 알리바바 클라우드(Alibaba Cloud), 코어위브(CoreWeave), 크루소(Crusoe), 디지털오션(DigitalOcean), 지코어(Gcore), GMI 클라우드(GMI Cloud), 라이트닝 AI(Lightning AI), 네비우스(Nebius), 엔스케일(Nscale), 투게더 AI(Together AI), 벌처(Vultr)
l AI 네이티브 기업: 커서(Cursor), 헤비아(Hebbia), 퍼플렉시티(Perplexity)
l 추론 엔드포인트 제공업체: 베이스텐(Baseten), 딥 인프라(Deep Infra), 파이어웍스(Fireworks)
l 글로벌 엔터프라이즈: 아스트라제네카(AstraZeneca), 블랙록(BlackRock), 바이트댄스(ByteDance), 쿠팡(Coupang), 인스타카트(Instacart), 메이투안(Meituan), 페이팔(PayPal), 핀터레스트(Pinterest), 쇼피(Shopee), 소프트뱅크(SoftBank Corp.)
코어위브 제품 및 엔지니어링 담당 수석 부사장 첸 골드버그(Chen Goldberg)는 “AI가 실험적 파일럿 단계에서 지속적이고 대규모의 생산 환경으로 확대됨에 따라, 기반 인프라 또한 지원 모델만큼 역동적으로 변화해야 한다. 엔비디아 다이나모를 지원함으로써, 우리는 복잡한 AI 에이전트 배포를 위해 원활하고 안정적인 환경을 제공할 수 있다. 이러한 기반은 업계에서 가장 도전적인 에이전틱 워크로드를 세계적 규모의 생산 환경으로 전환하는 데 필요한 안정성과 고성능 오케스트레이션 기능을 제공한다”고 말했다.
네비우스 최고기술책임자(CTO) 다닐라 슈탄(Danila Shtan)은 “대규모 환경에서 신뢰할 수 있는 AI 추론을 제공하는 것은 강력한 GPU만의 문제가 아닌, 그 성능을 고객의 실제 성과로 전환하는 소프트웨어가 중요하다. 우리는 다이나모부터 텐서RT-LLM에 이르는 엔비디아의 소프트웨어 스택이 심층적인 최적화, 예측 가능한 성능, 더욱 신속한 배포를 가능하게 해, 고객들이 더 간단하고 고성능의 AI 프로덕션 환경을 구축할 수 있도록 돕고 있다”고 말했다.
핀터레스트 CTO 맷 마드리갈(Matt Madrigal)은 “수억 명의 사용자에게 직관적인 멀티모달 AI 경험을 제공하려면 세계적 규모의 실시간 인텔리전스가 필수적이다. 우리는 오픈소스의 주요 도입 기업으로, 확장 가능한 AI 기술을 구축하기 위해 최선을 다하고 있다. 엔비디아 다이나모를 통해 배포 환경을 최적화하고, 고성능 AI 인프라를 기반으로 원활하고 개별화된 사용자 경험을 확대하고 있다”고 말했다.
투게더 AI 공동 창립자 겸 CEO 비풀 베드 프라카시(Vipul Ved Prakash)는 “AI 네이티브 기업들은 애플리케이션과 함께 안정적이고 효율적으로 확장할 수 있는 추론 기능이 필수적이다. 엔비디아 다이나모 1.0은 투게더 AI의 최첨단 추론 연구와 결합해, 대규모 프로덕션 워크로드를 위한 고성능 스택을 구축하며, 더욱 빠르고 비용 효율적인 추론을 제공한다”고 말했다.
다이나모 1.0은 오늘부터 전 세계 개발자들에게 제공된다. 자세한 내용과 시작 방법은 엔비디아 블로그 또는 다이나모 홈페이지에서 확인 가능하다.
엔비디아, NVIDIA, GTC 2026, AI 팩토리용, 추론, 운영 체제, 공개, 엔비디아 다이나모, Dynamo, 프로덕션, 단계, 진입








