피지컬 AI 위한 오픈 프론티어 파운데이션 모델, 엔비디아 ‘코스모스 3’ 출시

컴퓨텍스 | 피지컬 AI 위한 오픈 프론티어 파운데이션 모델, 엔비디아 ‘코스모스 3’ 출시

권경욱 기자 컴퓨텍스 0 0 06.01 20:03

엔비디아(www.nvidia.co.kr)가 아시아 최대 ICT 전시회 컴퓨텍스(COMPUTEX) 2026을 맞이해 개최한 엔비디아 GTC 타이베이(NVIDIA GTC Taipei)에서 피지컬 AI를 위한 오픈 월드 파운데이션 모델인 엔비디아 코스모스™ 3(Cosmos™ 3)을 출시했다. 코스모스 3은 비전 추론, 월드 생성, 액션 예측을 단일 시스템에 결합한 획기적인 트랜스포머 혼합(mixture-of-transformers) 아키텍처를 기반으로 구축됐다.

코스모스 3은 세계 최초의 완전한 오픈 옴니모델(omnimodel)로, 텍스트, 이미지, 비디오, 주변 음성, 액션을 고도의 물리 정확도로 이해하고 생성할 수 있다. 이에 따라 피지컬 AI 훈련과 평가 주기를 수개월에서 수일 단위로 단축할 수 있다.

또한 엔비디아는 애자일 로봇(Agile Robots), 블랙 포레스트 랩스(Black Forest Labs), 다이나 로보틱스(Dyna Robotics), 제너럴리스트(Generalist), LTX, 런웨이(Runway), 스킬드 AI(Skild AI) 등 월드 모델 빌더와 AI 개발자 간 글로벌 협력체인 ‘엔비디아 코스모스 연합(Cosmos Coalition)’을 출범했다. 이를 통해 차세대 월드 모델 개발을 위한 협력을 이어가고 있다.

엔비디아 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “멀티모달 추론 언어, 비전과 월드 모델의 획기적인 발전으로 피지컬 AI의 빅뱅이 곧 도래할 것이다. 오픈 프론티어 옴니모델 제품군인 코스모스 3은 개발자들에게 물리적 세계를 인식하고, 추론하며, 계획하고, 행동하는 로봇과 자율주행차, 비전 AI를 개발할 수 있는 획기적인 도약을 제공한다”고 말했다.

피지컬 AI를 위한 새로운 아키텍처

코스모스 3은 제한된 훈련 데이터와 단편화된 시뮬레이션 스택 환경에서도 로봇, 자율주행차, 비전 에이전트가 현실 세계에 일반화할 수 있도록 지원함으로써 피지컬 AI의 핵심 과제를 해결한다.

모델의 트랜스포머 혼합 아키텍처는 추론 트랜스포머와 전문 생성 트랜스포머를 결합해, 코스모스 3이 비디오와 액션 궤적을 생성하기 전에 객체 간 상호작용, 동작, 시공간적 관계를 이해할 수 있도록 지원한다.

코스모스 3은 텍스트, 이미지, 비디오, 음성, 액션 궤적 등 수십억 개의 샘플을 포함한 대규모 멀티모달 피지컬 AI 데이터셋으로 훈련됐으며, 개발자가 더 적은 데이터와 낮은 훈련 비용으로 피지컬 AI 시스템을 구축할 수 있도록 강력한 사전 훈련 기반을 제공한다.

개발자가 코스모스 3을 활용할 수 있는 방법은 다음과 같다.

Ÿ 다양한 양식을 이해하고 추론하는 비전 언어 모델(vision language model, VLM)

Ÿ 실제 환경을 시뮬레이션하고 훈련과 평가를 위해 미래 월드 상태를 예측하는 월드 모델 혹은 비디오 파운데이션 모델

Ÿ 로봇이 특정 작업을 수행하도록 훈련하는 데 도움을 주는 월드 액션 모델의 핵심

코스모스 3 모델은 피지컬 AI 벤치마크에서 최고 수준의 성능을 제공한다. 오픈 모델 가운데 월드 생성 정확도 부문에서 아티피셜 애널리시스(Artificial Analysis), 피직스-IQ(Physics-IQ), PAI-벤치(PAI-Bench), R-벤치(R-Bench) 전반에서 1위를 기록했으며, 액션 정책 부문에서는 로보랩(RoboLab)과 로보아레나(RoboArena), 비전 이해 부문에서는 밴티지-벤치(VANTAGE-Bench)와 TAR 리더보드에서 각각 1위를 차지했다.

코스모스 3 제품군은 피지컬 AI 개발의 각 단계에 맞춰 다양한 선택지를 제공한다.

Ÿ 코스모스 3 슈퍼(Super): 최고 수준의 물리 정확도와 생성 품질이 요구되는 로보틱스, 자율주행차 모델의 사후 훈련을 위한 모델이다.

Ÿ 코스모스 3 나노(Nano): 1초 미만의 짧은 시간 내에 고품질 비디오, 액션 추론을 지원한다.

Ÿ 코스모스 3 엣지(Edge): 엣지 환경에서 실시간 추론을 지원하며, 가까운 시일 내 출시될 예정이다.

코스모스 연합으로 오픈 월드 모델 개발 가속화

코스모스 연합은 월드 모델 빌더, AI 개발자, 피지컬 AI 선도기업 간 글로벌 협력체다. 회원사는 산업 전반에 걸쳐 오픈 월드 모델을 발전시키는 동시에, 코스모스 3 기술과 훈련 도구, 엔비디아 DGX™ 클라우드(DGX™ Cloud) 인프라를 대규모 훈련에 활용해 모델·연구·평가 기법 발전에 기여할 수 있다.

창립 회원사에는 애자일 로봇, 블랙 포레스트 랩스, 제너럴리스트, LTX, 런웨이, 스킬드 AI 등이 포함된다. 코스모스 연합은 개방형 생태계에서의 협업과 기여 확대를 바탕으로, 더욱 빠른 혁신과 폭넓은 상호운용성, 피지컬 AI의 발전 가속화를 목표로 한다.

코스모스 기반 개발

코스모스 플랫폼은 산업 전반의 훈련, 평가 워크플로우를 가속화하기 위해 엔비디아의 피지컬 AI 스택을 지원한다. 코스모스 플랫폼은 로보틱스, 물리, 인간 동작, 자율주행, 창고 안전, 공간 추론 등을 위한 신규 데이터셋은 물론, 뉴럴 장면 재구성, 결함 이미지 생성, 비디오 증강을 지원하는 새로운 피지컬 AI 에이전트 스킬도 포함한다.

현재 다양한 산업 분야의 피지컬 AI 개발사들이 코스모스 플랫폼을 기반으로 개발을 진행하고 있다. 로보틱스 분야에서는 애자일 로봇, 두산로보틱스(Doosan Robotics), LG전자(LG Electronics), 삼성(Samsung), 스킬드 AI가 참여하고 있으며, 자율주행차 분야에서는 리오토(LiAuto), 비전 AI 에이전트 분야에서는 센티픽(Centific), 포그스피어(Fogsphere), 링커 비전(Linker Vision), 마일스톤 시스템즈(Milestone Systems), 유안(Yuan) 등이 산업 AI와 스마트 공간 애플리케이션 개발에 코스모스 플랫폼을 활용하고 있다.

사용 정보

코스모스 3 슈퍼와 코스모스 3 나노는 현재 이용할 수 있으며, 실시간 추론을 지원하는 코스모스 3 엣지가 곧 출시된다. 개발자는 build.nvidia.com에서 코스모스 3을 활용하고, 허깅페이스(Hugging Face)에서 오픈 모델을 다운로드할 수 있다. 또한 깃허브(GitHub)의 허깅페이스 디퓨저(Diffusers)와 리소스를 통해 모델을 커스터마이징하고 합성 데이터를 생성한 뒤, 엔비디아 NIM™ 마이크로서비스로 모델을 배포할 수 있다.

모델 빌더와 소프트웨어 공급업체는 베이스텐(Baseten), 코어위브(CoreWeave), 마이크로소프트 애저(Microsoft Azure), 네비우스(Nebius), 딥 인프라(Deep Infra), 클래스메소드(Classmethod) 등 추론 서비스·클라우드 인프라 파트너를 통해 코스모스의 접근·커스터마이징·배포를 가속화할 수 있다. 또한 깃허브(GitHub)의 피지컬 AI 에이전트 기술을 활용해 주요 추론·합성 데이터 생성 워크로드를 지원할 수 있다.

여기에서 엔비디아 창립자 겸 CEO 젠슨 황의 기조연설을 시청하고, 엔비디아 GTC 타이베이에 대한 자세한 내용을 확인할 수 있다. 여기에서 피지컬 AI 관련 세션을 살펴볼 수 있다.

엔비디아, NVIDIA, 컴퓨텍스, COMPUTEX, 2026, 피지컬 AI, 위한, 오픈, 프론티어, 파운데이션, 모델, 코스모스 3, Cosmos 3, 출시

﻿피지컬 AI 위한 오픈 프론티어 파운데이션 모델, 엔비디아 ‘코스모스 3’ 출시

컴퓨텍스 | ﻿피지컬 AI 위한 오픈 프론티어 파운데이션 모델, 엔비디아 ‘코스모스 3’ 출시

피지컬 AI 위한 오픈 프론티어 파운데이션 모델, 엔비디아 ‘코스모스 3’ 출시

컴퓨텍스 | 피지컬 AI 위한 오픈 프론티어 파운데이션 모델, 엔비디아 ‘코스모스 3’ 출시