SIGGRAPH | 엔비디아 NIM 마이크로서비스, 디지털 환경에 새로운 물리 생성형 AI 구현
엔비디아(www.nvidia.co.kr)가 물리 생성형 AI NIM 마이크로서비스와 엔비디아 메트로폴리스 레퍼런스 워크플로우(NVIDIA Metropolis reference workflow)를 통해 지능형 몰입형 작업 환경 조성을 지원하고 있다고 밝혔다.
이미 수백만 명의 사람들이 글쓰기와 학습을 지원하기 위해 생성형 AI를 사용하고 있다. 이제 이 기술은 현실 세계를 보다 효과적으로 탐색하는 데도 도움이 될 수 있다.
엔비디아는 이번 시그라프(SIGGRAPH)에서 물리 생성형 AI의 발전된 기술을 발표했다. 이는 인터랙티브 시각 AI 에이전트(interactive visual AI agents) 구축을 위한 엔비디아 메트로폴리스 레퍼런스 워크플로우와 개발자가 물리 기계를 학습시키고 복잡한 작업을 처리하는 방식을 개선하는 데 도움이 될 새로운 엔비디아 NIM 마이크로서비스를 포함한다.
여기에는 3D 세계를 위한 엔비디아의 새로운 딥 러닝 프레임워크를 지원하는 세 가지 fVDB NIM 마이크로서비스와 오픈USD(Universal Scene Description, OpenUSD) 작업을 위한 USD 코드(Code), USD 검색(Search)과 USD 검증(Validate) NIM 마이크로서비스가 포함된다.
엔비디아 오픈USD NIM 마이크로서비스 또한 엔비디아가 개발한 세계 최초의 오픈USD 개발용 생성형 AI 모델과 함께 작동한다. 이로써 개발자는 생성형 AI 코파일럿(copilot)과 에이전트를 USD 워크플로우에 통합하고 3D 세계의 가능성을 확장할 수 있다.
엔비디아 NIM 마이크로서비스로 물리적 AI 환경 혁신
물리적 AI는 고급 시뮬레이션과 학습 방법을 사용해 로봇과 기타 산업 자동화가 주변 환경을 보다 효과적으로 인식, 판단과 탐색할 수 있도록 지원한다. 이 기술은 제조업과 헬스케어 산업을 변화시키고 로봇, 공장과 창고 기술, 수술용 AI 에이전트로 보다 스마트하고 정교하게 작동할 수 있는 자동차를 통해 스마트 공간을 발전시키고 있다.
엔비디아는 특정 모델과 산업 분야에 최적화된 광범위한 NIM 마이크로서비스를 제공한다. 물리적 AI를 위해 맞춤화된 엔비디아의 NIM 제품군은 음성, 번역, 시각, 인텔리전스, 현실적인 애니메이션과 동작을 위한 기능을 지원한다.
엔비디아 NIM으로 시각 AI 에이전트의 비전 실현
시각 AI 에이전트는 컴퓨터 비전 기능을 사용해 물리적 세계를 인식하고 상호 작용하며 논리적 작업을 수행한다.
인지력이 높고 인터랙티브한 시각 AI 에이전트는 비전 언어 모델(Vision Language Model, VLM)이라는 새로운 종류의 생성형 AI 모델을 통해 구현된다. 이는 물리적 AI 워크로드에서 디지털 인식과 실제 세계의 상호작용을 연결해 의사 결정, 정확도, 상호 작용, 성능을 향상한다. 개발자는 VLM을 통해 복잡한 환경에서 까다로운 작업을 보다 효과적으로 처리할 수 있는 비전 AI 에이전트를 구축할 수 있다.
병원, 공장, 창고, 소매점, 공항, 교통 교차로 등에서 생성형 AI 기반의 시각 AI 에이전트가 빠르게 배포되고 있다.
엔비디아는 물리적 AI 개발자가 고성능 맞춤형 시각 AI 에이전트를 보다 쉽게 구축할 수 있도록 물리적 AI를 위한 NIM 마이크로서비스와 레퍼런스 워크플로우를 제공한다. 엔비디아 메트로폴리스 레퍼런스 워크플로우는 시각 AI 에이전트를 맞춤화, 제작, 배포하기 위한 간단하고 구조화된 접근 방식을 제공한다.
엔비디아 NIM의 지원으로 팔레르모의 효율성, 안전성, 보안을 강화한 K2K
이탈리아 팔레르모(Palermo)의 도시 교통 관리자들은 도로 관리에 도움이 되는 물리적 인사이트를 발견하기 위해 엔비디아 NIM을 사용해 시각적 AI 에이전트를 배포했다.
엔비디아 메트로폴리스 파트너인 K2K가 이러한 노력을 주도하고 있으며, 도시의 라이브 교통 카메라를 실시간으로 분석하는 AI 에이전트에 엔비디아 NIM 마이크로서비스와 VLM을 통합하고 있다. 시 공무원이 우리가 사용하는 언어로 에이전트에게 질문을 하면, 거리 움직임에 대한 빠르고 정확한 인사이트를 비롯해 신호등 시간 조정과 같은 도시 운영 개선 방법에 대한 제안을 받을 수 있다.
선도적인 글로벌 전자업체인 폭스콘(Foxconn)과 페가트론(Pegatron)은 대규모 제조 운영을 보다 효율적으로 설계하고 운영하기 위해 물리적 AI, NIM 마이크로서비스, 메트로폴리스 레퍼런스 워크플로우를 채택했다.
양사는 시뮬레이션을 통한 가상 공장 구축으로 상당한 시간과 비용을 절감하고 있다. 또한 실제 배포 전, 디지털 트윈에서 AI 멀티 카메라와 시각 AI 에이전트를 포함한 물리적 AI를 더욱 정밀하게 테스트하고 향상시켜 작업자의 안전을 보장하고 운영 효율성을 개선하고 있다.
합성 데이터 생성을 통한 시뮬레이션과 현실의 격차 극복
현재 많은 AI 기반 비즈니스에서 실제 산업 자동화와 관련된 물리 생성형 AI 프로젝트에 시뮬레이션 우선 접근 방식을 채택하고 있다.
제조, 공장 물류와 로보틱스 기업은 복잡한 인간과 작업자의 상호 작용, 첨단 시설과 고가의 장비를 관리해야 한다. 이러한 기업들은 실제 상황을 정확하게 모방하는 디지털 표현이나 가상 환경을 만드는 데 필요한 매우 복잡한 엔지니어링을 간소화할 수 있도록 물리적 AI와 VLM NIM 마이크로서비스, 레퍼런스 워크플로우와 fVDB를 포함한 엔비디아 물리적 AI 소프트웨어, 툴, 플랫폼을 사용할 수 있다.
VLM은 매우 사실적인 이미지를 생성할 수 있기 때문에 산업 전반에 걸쳐 널리 채택되고 있다. 그러나 이러한 모델은 정확한 실제 AI 모델을 생성하는 데 필요한 방대한 양의 데이터가 필요해 훈련시키기 어려울 수 있다.
컴퓨터 시뮬레이션을 사용해 디지털 트윈에서 생성된 합성 데이터는 사용 사례에 따라 모델 학습을 위해 수집하는 데 비용이 많이 들거나 가끔은 수집 자체가 불가능한 실제 데이터 세트에 대한 강력한 대안을 제공한다.
개발자는 엔비디아 NIM 마이크로서비스와 옴니버스 리플리케이터(Omniverse Replicator)와 같은 도구를 통해 생성형 AI 지원 합성 데이터 파이프라인을 구축할 수 있다. 이를 통해 실제 AI 훈련을 위한 강력하고 다양한 데이터 세트의 생성을 가속화할 수 있다. 이로써 VLM과 같은 모델의 적응력과 성능이 향상돼 여러 분야에 걸쳐 보다 효과적으로 일반화할 수 있다.
가용성
개발자는 여기에서 엔비디아가 구축한 최첨단 개방형 기초 AI 모델과 NIM 마이크로서비스에 액세스할 수 있다. 메트로폴리스 NIM 레퍼런스 워크플로우는 깃허브(GitHub) 저장소에서 사용할 수 있으며, 메트로폴리스 마이크로서비스는 개발자 프리뷰에서 다운로드할 수 있다.
오픈USD NIM 마이크로서비스는 엔비디아 API 카탈로그에서 프리뷰로 이용 가능하다.
엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)의 시그라프 좌담회에서 가속 컴퓨팅과 생성형 AI가 어떻게 산업을 변화시키고 혁신과 성장을 위한 새로운 기회를 창출하고 있는지 확인할 수 있다.