게임과 3D 애플리케이션 AI 기반 아바타 생성 지원, 엔비디아 ‘오디오투페이스’ 애니메이션 모델 오픈 소스로 공개

홈 > 최신뉴스 > 주요뉴스
주요뉴스

IT | 게임과 3D 애플리케이션 AI 기반 아바타 생성 지원, 엔비디아 ‘오디오투페이스’ 애니메이션 모델 오픈 소스로 공개

권경욱 기자 0   0

엔비디아(www.nvidia.co.kr)가 게임, 3D 애플리케이션의 AI 기반 아바타 생성을 지원하는 오디오투페이스(Audio2Face) 기술을 오픈 소스로 공개한다고 밝혔다. 


생성형 AI는 거대 언어 모델(large language model, LLM)과 음성 모델을 활용해 비디오 게임부터 고객 서비스에 이르기까지 자연스러운 대화를 지원하는 지능형 3D 아바타를 생성한다. 캐릭터가 사람처럼 보이기 위해서는 인간다운 표정이 필수적이다. 엔비디아(NVIDIA) 오디오투페이스는 생성형 AI 기반 실시간 얼굴 애니메이션과 립싱크를 제공해 사실적인 디지털 캐릭터 제작을 가속화한다.



thumb-1d8998c9e999d749b6160ac7081b51b9_vSxtBqkf_c75e935438574796784853d77cf196f902ce0ee4_600x332.jpg


오디오투페이스는 AI를 활용해 오디오 입력을 바탕으로 사실적인 얼굴 애니메이션을 생성한다. 음성의 음소, 억양 등 음향적 특징을 분석해 애니메이션 데이터 스트림을 만들고, 이를 캐릭터의 얼굴 표정에 매핑한다. 해당 데이터는 오프라인 환경에서 사전 제작된 콘텐츠에 활용 가능하며, 실시간 스트리밍으로 AI 기반 캐릭터의 역동적인 상호작용에도 사용할 수 있다. 이를 통해 정밀한 립싱크와 감정 표현이 가능하다.



thumb-1d8998c9e999d749b6160ac7081b51b9_Y0qUNfx6_d24aaaca089cd37a8deda868b75af9eaf2e53d27_600x235.jpg

음성 오디오와 감정적 트리거로 얼굴 애니메이션과 립싱크가 생성된다. 


엔비디아는 오디오투페이스 모델과 소프트웨어 개발 키트(Software Development Kit, SDK)를 오픈 소스로 공개한다. 이를 통해 모든 게임, 3D 애플리케이션 개발자가 최첨단 애니메이션을 갖춘 고품질 캐릭터를 제작하고 배포할 수 있도록 지원한다. 또한 오디오투페이스 훈련 프레임워크도 오픈 소스로 공개돼 누구나 엔비디아의 기존 모델을 활용 사례에 맞게 미세 조정하고 맞춤화할 수 있다. 


아래에서 오픈 소스 도구의 전체 목록을 확인할 수 있으며, 더 자세한 사항은 엔비디아 개발자(NVIDIA Developer) 페이지에서 알아볼 수 있다.



thumb-1d8998c9e999d749b6160ac7081b51b9_cZX6HmrL_ae5eb6a569dcec5949ef7939ef13941c35a804d4_600x354.jpg

오디오투페이스 모델, 훈련 데이터 


오픈 소스 기술은 개발자, 학생, 연구자들이 최첨단 코드를 학습하고 이를 기반으로 새로운 기술을 개발할 수 있도록 한다. 이를 통해 커뮤니티 내에서 새로운 기능이 추가되거나 다양한 활용 사례에 맞게 최적화가 이뤄지는 선순환이 만들어진다. 고품질 얼굴 애니메이션을 보다 쉽게 활용할 수 있게 된 커뮤니티는 향후 혁신적인 결과를 만들어낼 것으로 기대된다. 지금 바로 엔비디아 오디오투페이스 개발자 커뮤니티 디스코드(Discord)에 가입해 최신 작업을 공유할 수 있다. 


업계를 선도하는 오디오투페이스 모델은 게임, 미디어, 엔터테인먼트, 고객 서비스 등 다양한 산업에 도입되고 있다. 컨바이(Convai), 코드마스터즈(Codemasters), GSC 게임 월드(GSC Game World), 인월드 AI(Inworld AI), 넷이즈(NetEase), 리얼루전(Reallusion), 퍼펙트월드 게임즈(Perfect World Games), 스트림랩스(Streamlabs), 유니큐 디지털 휴먼스(UneeQ Digital Humans) 등 많은 독립 소프트웨어 공급업체(Independent Software Vendors, ISV)와 게임 개발사가 오디오투페이스 기술을 자사 애플리케이션에 활용하고 있다. 


크리에이터를 위한 3D 캐릭터 제작 플랫폼을 제공하는 리얼루전은 자사 툴 모음에 오디오투페이스를 통합했다. 


리얼루전의 혁신 부문 책임자인 엘비스 황(Elvis Huang)은 “오디오투페이스는 AI를 활용해 오디오로 감정이 담긴 다국어 얼굴 애니메이션을 생성한다. 리얼루전의 아이클론(iClone), 캐릭터 크리에이터(Character Creator), 아이클론 AI 어시스턴트(iClone AI Assistant)와 오디오투페이스의 매끄러운 통합은 물론, 얼굴 키(face-key) 편집, 페이스 퍼페티어링(face puppeteering), 애큐립(AccuLip)을 비롯한 고급 편집 도구 덕분에 고품질 캐릭터 애니메이션 제작이 그 어느 때보다 쉬워졌다”고 말했다. 


‘에이리언: 로그 인커전 이볼브드 에디션(Alien: Rogue Incursion Evolved Edition)’의 개발사 서비오스(Survios)는 애니메이션 제작 과정을 가속화해 보다 빠르게 고품질 캐릭터 경험을 제공할 수 있게 됐다. 


서비오스의 게임 디렉터 겸 수석 엔지니어인 유진 엘킨(Eugene Elkin)은 “’이볼브드 에디션’에 오디오투페이스를 통합함으로써, 립싱크와 얼굴 캡처 파이프라인을 간소화하는 동시에 플레이어에게 더욱 몰입감 있고 사실적인 캐릭터 경험을 제공할 수 있었다”고 말했다. 


‘체르노빌라이트(Chernobylite)’ 게임 시리즈의 개발사 더 팜 51(The Farm 51)은 최신작에 오디오투페이스를 도입했다. 


더 팜 51의 크리에이티브 디렉터인 보이치에흐 파즈두르(Wojciech Pazdur)는 “엔비디아 오디오투페이스 기술을 ‘체르노빌라이트 2: 금지구역(Chernobylite 2: Exclusion Zone)’에 도입한 것은 우리에게 획기적인 전환점이었다. 우리는 오디오로 매우 정교한 얼굴 애니메이션을 직접 생성해 수많은 애니메이션 작업 시간을 절약했다. 기존 ‘체르노빌라이트’에서는 불가능했던 아이디어들이 실행 가능해졌고, 새로운 수준의 사실감과 몰입감 있는 캐릭터 연기가 그 어느 때보다 실제처럼 느껴진다”고 말했다. 


이번 달에 발표된 게임 개발자를 위한 다른 소식은 아래와 같다. 


RTX 키트 최신 업데이트


RTX 키트(RTX Kit)는 AI를 활용해 게임에 레이 트레이싱을 적용하고, 방대한 지오메트리(geometry)의 장면을 렌더링하며, 사실적인 비주얼의 게임 캐릭터를 제작할 수 있는 엔비디아의 뉴럴 렌더링 기술 모음이다.


RTX 뉴럴 텍스처 압축(RTX Neural Texture Compression) SDK는 고품질 텍스처의 메모리 사용량을 품질 손실 없이 크게 줄이며, 다음과 같은 다양한 개선 사항을 포함한다. 


매우 큰 텍스처 세트에 대한 라이브러리 최적화와 DX12에서 협력 벡터(Cooperative Vectors) 사용 시 성능 향상

렌더링 샘플 기능 확장, 성능과 DLSS 지원 개선

매우 큰 텍스처 세트의 압축, 해제 시 명령줄 도구(Command-Line Tool) 개선

벤치마킹에 유용한 새로운 인텔 스폰자(Intel Sponza) 장면 추가 


RTX 글로벌 일루미네이션(RTX Global Illumination) SDK는 레이 트레이싱 기반 간접 조명 솔루션을 제공하며, 다음과 같은 개선 사항을 포함한다. 


패스 트레이서 샘플에 V싱크(VSync) 옵션 추가

머티리얼 디모듈레이션 토글(material demodulation toggle)과 함께 캐시 시각화 기능 추가

공간 해시 방사도 캐시(Spatially Hashed Radiance Cache, SHaRC) 알고리즘으로 압축 옵션 제거, 선택적 머티리얼 디모듈레이션 기능과 추가 디버그 패스, 문서 업데이트 도입 


엔비디아 vGPU로 게임 개발 환경 확장


엔비디아 가상 GPU(virtual GPU, vGPU) 기술은 가상화 환경에서 다수 사용자가 GPU를 공유할 수 있게 한다. 따라서 조직 전체의 게임 개발자를 지원하는 확장 가능한 GPU 자원을 제공한다. 액티비전(Activision)은 엔비디아 vGPU를 활용해 글로벌 통합, 배포, 운영 파이프라인을 재구축했으며, 100대의 기존 서버를 단 6대의 RTX GPU 기반 장치로 대체했다. 결과는 다음과 같다. 


서버 공간 사용량 82% 감소

전력 사용량 72% 절감

3,000명의 개발자와 500개 이상의 시스템에서 하루 25만 개 이상의 작업 실행 


인프라를 통합하고 역동적인 GPU 할당을 가능하게 함으로써, 액티비전은 멀티플레이어 검증부터 시각적 회귀와 성능 테스트까지 모두 지원하는 확장 가능한 자동화된 테스트 플랫폼을 구축했다. 이를 통해 반복 속도를 가속화하고 코드 품질을 전반적으로 향상시켰다.


여기에서 액티비전의 사례를 통해 중앙 집중식 GPU 스케줄링이 AAA 개발 파이프라인을 재정의하는 방법에 대해 알아볼 수 있다. 


그래픽 개발, 성능 조율 관련 시그라프 2025 세션


엔비디아는 다양한 교육 세션과 기술 발표를 진행했다. 특히 게임 개발자들의 관심을 끈 것은 엔사이트(Nsight) 그래픽 개발자 도구 모음의 최신 기능을 체험할 수 있는 실험실이었다. 해당 세션의 녹화 영상은 현재 엔비디아 온디맨드(On-Demand)에서 스트리밍으로 시청할 수 있다. 


‘엔사이트 그래픽스 활용: 현대 레이 트레이싱 애플리케이션 개발, 디버깅하기(Nsight Graphics in Action: Develop and Debug Modern Ray-Tracing Applications)’ 세션에서는 프레임을 점검하고 디버깅하며, 일반적인 렌더링 버그와 성능 저해 요소를 식별하고 진단하는 방법에 초점을 맞췄다. 또한 확장되고 현대화된 워크플로우를 제공하는 새로운 그래픽스 캡처(Graphics Capture) 도구의 활용 방법도 소개됐다. 


‘엔사이트 그래픽스 활용: 현대 레이 트레이싱 애플리케이션에서 셰이더 최적화하기(Nsight Graphics in Action: Optimize Shaders in Modern Ray-Tracing Applications)’ 세션은 GPU 트레이스 프로파일러(GPU Trace Profiler)를 심층적으로 다루며, 개별 셰이더 코드를 분석해 런타임 실행 병목 현상을 찾아내는 방법을 소개한다. 


‘엔비디아 엔사이트 시스템즈로 VRAM 관리 최적화하기(Optimize VRAM Management With NVIDIA Nsight Systems)’ 세션에서는 CPU와 GPU 전반에서 애플리케이션 성능과 자원 활용 현황을 전체적으로 파악하는 방법을 설명한다. 몇 분 길이의 트레이스를 활용하며, 특히 새로운 그래픽스 핫스팟 분석(Graphics Hotspot Analysis) 도구를 강조한다. 이 도구는 원본 타임라인 데이터를 웹 기반 인터페이스로 변환해 동시성 분석, 프레임 지연 등을 쉽게 확인할 수 있는 요약 정보를 제공한다. 


게임과 그래픽 애플리케이션을 최적화하는 엔사이트 그래픽스엔사이트 시스템즈를 지금 다운로드해 시작해볼 수 있다. 


더 알아보기


여기에서 언리얼 엔진 5.6 기반 RTX 메가 지오메트리(RTX Mega Geometry)를 다룬 ‘레벨 업 위드 엔비디아(Level up with NVIDIA)’ 웨비나 에피소드를 온디맨드로 시청할 수 있다. 


여기에서 게임 개발자를 위한 전체 자료 목록을 확인할 수 있으며, 아래의 방법을 통해 최신 엔비디아 게임(Game) 개발 뉴스를 받아볼 수 있다.

 

ⓒ 블루프레임(https://www.blueframe.co.kr) 무단전재 및 재배포금지

, , , , , , , , , , , , ,

0 Comments
많이 본 뉴스
인기기사