[GTC 2022] 엔비디아 인공지능 화상회의 솔루션 ‘맥신’, 실시간 통신 경험 혁신

홈 > 최신뉴스 > 주요뉴스 > GTC
주요뉴스

GTC | [GTC 2022] 엔비디아 인공지능 화상회의 솔루션 ‘맥신’, 실시간 통신 경험 혁신

권경욱 기자 0   0

엔비디아(www.nvidia.co.kr, CEO 젠슨 황)는 AI 화상회의 솔루션인 엔비디아 맥신(Maxine)으로 실시간 통신 경험을 혁신한다고 밝혔다. 


엔비디아는 세계 최대 AI 개발자 컨퍼런스인 GTC에서 맥신이 음질 개선을 위해 음향 반향 제거 기능과 AI 기반 업샘플링을 추가한다고 발표했다. 


그 어느 때보다 많은 사람들이 집에서 화상 통화를 하고 라이브 스트리밍을 하는 오늘날, 온라인 경험 향상을 위해서는 음향 반향이나 주변의 배경 소음이 없는 풍부한 오디오가 중요하다. GPU 가속 AI 기반 소프트웨어 개발 키트를 제공하는 엔비디아 맥신(Maxine) 은 개발자가 통화 품질과 사용자 경험을 개선하는 확장 가능한 저 지연 오디오, 비디오 효과 파이프라인을 구축할 수 있도록 지원한다.


음향 반향 제거 기능은 오디오 스트림에서 음향 반향을 실시간으로 제거하여 이중 통화 중에도 음성 품질을 유지한다. 맥신은 AI 기반 기술을 사용해 기존 디지털 신호 처리 알고리즘을 통해 달성한 것보다 더 효과적인 반향 제거를 구현한다. 오디오 슈퍼 레졸루션(Audio Super Resolution)은 AI 기반 기술을 사용해 고주파수 대역에서 손실된 에너지를 복원하여 저 대역폭 오디오 신호의 품질을 개선한다. 


맥신의 오디오 슈퍼 레졸루션은 8kHz(협대역)에서 16kHz(광대역), 16kHz에서 48kHz(초광대역), 8kHz에서 48kHz까지 오디오 업샘플링을 지원한다. 8kHz와 같은 더 낮은 샘플링 속도는 종종 음성을 불분명하게 만들고 치찰음과 같은 아티팩트를 강조하여 음성을 이해하기 어렵게 만든다.


현대의 영화와 텔레비전 스튜디오는 원래 신호의 충실도를 유지하고 선명도를 유지하기 위해 오디오 녹음에 48kHz 또는 그 이상의 샘플링 속도를 사용하는 경우가 많다. 오디오 슈퍼 레졸루션은 자기 테이프 또는 기타 저 대역폭 미디어에서 파생된 오래된 오디오 녹음의 충실도를 복원하는 데 도움이 될 수 있다.


사운드 격차 해소


대부분의 현대 통신은 광대역 또는 초광대역 오디오를 사용하여 이뤄진다. 오디오 슈퍼 레졸루션은 협대역 오디오를 실시간으로 업샘플링하고 복원할 수 있기 때문에, 이 기술을 효과적으로 사용하면 기존 구리 전화선과 최신 VoIP 기반 광대역 통신 시스템 간의 품질 격차를 해소할 수 있다.


전화 회의, 콜 센터 또는 모든 종류의 라이브 스트리밍을 위한 실시간 통신 기술이 맥신과 함께 크게 도약하고 있다. 맥신은 최초 출시 이후 비디오 통신, 콘텐츠 제작, 라이브 스트리밍을 위한 세계 유수의 기업들에 의해 채택됐다.


포춘 비즈니스 인사이트(Fortune Business Insights)에 따르면 전 세계 화상 회의 시장은 2021년 약 63억 달러에서 2028년 거의 130억 달러로 성장할 것으로 예상된다.


재택근무, 삶의 방식이 되다


재택근무(WFH)로의 전환은 기업 전반에 걸쳐 수용된 표준이 됐으며 조직들은 새로운 기대치에 적응하고 있다. 분석 전문 기업 가트너(Gartner)는 2024년에는 기업 회의의 4분의 1만이 대면 회의가 될 것으로 추정했다.


팬데믹 상황 속에서 지난 2년 동안 사람들이 하이브리드와 원격 근무를 하게 됨에 따라 미국 내에서 비대면 협업은 중요한 역할을 하고 있다. 그러나 조직이 회사 문화와 직장 경험을 유지하려고 하면서 고품질 미디어 활용에 대한 관심이 높아지고 있다.


칵테일 파티 문제 해결 


회의 중 들리는 주변 말소리, 외부 공사 소음 또는 긴급 차량 사이렌 등의 소리는 전화 회의 흐름을 방해하곤 한다. 맥신은 ‘칵테일 파티 문제’로 알려진 고질적인 오디오 문제를 해결하는 데 도움이 된다. AI 기술로 원치 않는 배경 소음을 걸러낼 수 있어 사용자가 사무실에 있든 이동 중이든 목소리를 더 잘 들을 수 있다. 맥신 GPU 가속 플랫폼은 맞춤형 최신 모델과 통합되는 엔드 투 엔드 딥 러닝 파이프라인을 제공해 표준 마이크와 카메라로 고품질 기능을 구현한다.


최상의 음성 구현


배경 소음의 영향을 받는 것 외에도 비대면 활동 중 오디오 품질은 때때로 가늘게 들리거나, 중저역 주파수가 누락되거나 거의 들리지 않는 경우도 있다. 맥신을 사용하면 실시간으로 오디오를 업샘플링하여 음성을 더 풍부하고 깊이 있고 더 잘 들리도록 할 수 있다.


로지텍: 헤드셋과 블루 예티(Blue Yeti) 마이크의 오디오 품질 향상


주변기기 분야의 선도기업인 로지텍(Logitech)은 인기 있는 헤드셋, 마이크 제품과의 더 나은 상호 작용을 위해 맥신을 구현하고 있다. 로지텍은 AI 라이브러리를 활용해 맥신을 G 허브(Hub) 오디오 드라이버에 직접 통합함으로써 추가 소프트웨어 없이도 장치와의 통신을 향상시켰다. 맥신은 엔비디아 RTX GPU의 강력한 텐서(Tensor) 코어를 활용해 소비자가 마이크 신호의 실시간 처리를 즐길 수 있도록 한다.


로지텍은 이제 G 허브 소프트웨어에서 맥신의 최첨단 노이즈 제거 기능을 활용한다. 이를 통해 화상 회의나 라이브 스트리밍 세션에서 방해가 될 수 있는 선풍기, 키보드, 마우스 클릭과 같은 배경 소음과 반향을 제거할 수 있다.


로지텍 G의 우제시 데사이(Ujesh Desai) GM은 "엔비디아 맥신은 로지텍 G 게이머가 클릭 한 번으로 빠르고 쉽게 마이크 신호를 정리하고 원치 않는 배경 소음을 제거할 수 있게 한다. G 허브로 마이크 신호를 테스트하여 맥신 설정이 제대로 되었는지 확인할 수도 있다"고 말했다.


콘텐츠 크리에이터를 지원하는 텐센트 클라우드(Tencent Cloud)


텐센트 클라우드(Tencent Cloud)는 크리에이터의 콘텐츠 제작을 지원하기 위해 창의적인 배경을 빠르고 쉽게 추가할 수 있는 엔비디아 맥신의 기술을 제공하고 있다. 맥신의 AI 그린 스크린(Green Screen) 기능을 통해 사용자는 기존의 그린 스크린 없이도 고품질 전경과 배경 분리를 통해 보다 몰입감 있는 존재감을 연출할 수 있다. 실제 배경이 분리되면 가상 배경으로 쉽게 교체하거나 흐리게 처리하여 피사계 심도(DOF) 효과를 낼 수 있다. 텐센트 클라우드는 콘텐츠 크리에이터를 위한 SaaS(서비스로서의 소프트웨어) 패키지로 이 신규 기능을 제공한다.


텐센트 클라우드 오디오, 비디오 플랫폼 제품 센터 디렉터 벌처 리(Vulture Li)는 “전문 장비와 조명 없이도 보다 몰입감 있는 고품질 경험을 가능하게 하는 엔비디아 맥신의 AI 그린 스크린 기술로 콘텐츠 크리에이터의 작품 제작을 돕고 있다”고 말했다.


더 나은 가상 경험 만들기


엔비디아 맥신은 맞춤형 엔드 투 엔드 딥 러닝 파이프라인에 구축할 수 있는 최첨단 실시간 AI 오디오, 비디오와 증강 현실 기능을 제공한다. 맥신의 AI 기반 SDK는 개발자가 오디오와 이미지 노이즈 제거, 초고해상도, 시선 보정, 3D 신체 포즈 추정, 번역 기능 등의 애플리케이션을 만드는 데 도움이 된다.


또한 맥신은 점점 더 많은 언어에 대한 실시간 음성-텍스트 번역도 가능하게 한다. GTC에서 엔비디아는 맥신의 영어, 프랑스어, 독일어, 스페인어 번역을 시연했다. 이러한 효과 덕분에 수백만 명의 사람들이 어느 기기에서도 고품질의 매력적인 라이브 스트리밍 비디오를 즐길 수 있다.

 

ⓒ 블루프레임(https://www.blueframe.co.kr) 무단전재 및 재배포금지

, , , , , , , , , , ,

0 Comments
많이 본 뉴스
인기기사