AI 추론 플랫폼, 엔비디아 ‘트리톤 추론 서버’ 업데이트 공개

IT | AI 추론 플랫폼, 엔비디아 ‘트리톤 추론 서버’ 업데이트 공개

권경욱 기자 IT 0 0 2021.11.10 14:04

엔비디아(www.nvidia.co.kr, CEO 젠슨 황)는 전세계 25,000명 이상의 고객들이 사용하는 AI 추론 플랫폼인 트리톤 추론 서버(NVIDIA Triton Inference Server)에 대한 최신 업데이트를 발표했다.

트리톤 추론 서버는 캐피탈 원(Capital One), 마이크로소프트(Microsoft), 지멘스 에너지(Siemens Energy) 및 스냅(Snap)을 비롯해 수많은 고객들이 사용 중이다. 이번 업데이트로 모든 AI 모델과 프레임워크에 대한 교차 플랫폼 추론을 제공하는 오픈소스 엔비디아 트리톤 추론 서버 소프트웨어 및 AI 모델을 최적화하고 엔비디아 GPU의 고성능 추론을 위한 런타임을 제공하는 텐서RT(Tensor RT)을 지원한다. 엔비디아는 또한 CPU보다 최대 20배 더 높은 추론 성능을 제공하는 AI 추론용 저전력 소형 가속기인 엔비디아 A2 텐서 코어 GPU를 선보였다.

엔비디아 가속 컴퓨팅 담당 부사장 겸 총괄 매니저인 이안 벅(Ian Buck)은 "엔비디아의 AI 추론 플랫폼은 헬스케어, 금융 서비스, 소매, 제조 및 슈퍼컴퓨팅을 포함한 거의 모든 산업에 걸쳐 돌파구를 마련하고 있다"며 "스마트한 추천 기능 및 대화용 AI의 성능을 활용하거나 과학적 발견을 촉진함에 있어 엔비디아의 추론 플랫폼은 전세계 최신 및 주요 AI 애플리케이션을 지원하는 데 필요한 사용 편의성, 저 지연시간, 높은 처리량, 다양한 성능을 제공한다"고 강조했다.

주요 소프트웨어 최적화

트리톤 추론 서버에 대한 업데이트는 다음과 같다.

 트리톤 모델 애널라이저(Triton Model Analyzer): 수백 가지의 가능한 구성 중에서 AI 모델에 가장 적합한 구성을 선택할 수 있도록 지원하여 주요 최적화 작업을 자동화한다. 최적의 성능을 달성하는 동시에 애플리케이션에 필요한 서비스 품질을 보장한다.

 다중 GPU 다중 노드 기능(Multi-GPU Multinode Functionality): 단일 GPU에 맞지 않는 메가트론(Megatron) 530B와 같은 트랜스포머(Transformer) 기반 대형 언어 모델을 다중 GPU 및 서버 노드를 통해 추론할 수 있으며, 실시간 추론 성능을 제공한다.

 래피즈(RAPIDS) FIL: 랜덤 포레스트(Random Forest) 및 그레디언트 부스트 의사결정트리(gradient-boosted decision tree) 모델의 GPU 또는 CPU 추론을 위한 새로운 백엔드(back-end)이며, 개발자에게 트리톤 기반 딥 러닝과 기존 머신 러닝을 위한 통합 배포 엔진을 제공한다.

 아마존 세이지메이커 인티그레이션(Amazon SageMaker Integration): 원활한 통합을 통해 고객은 AWS의 완전히 관리되는 AI 서비스인 세이지메이커 내에서 트리톤을 사용해 고성능의 멀티 프레임워크 모델을 쉽게 구축할 수 있다.

 암(Arm) CPU에 대한 지원사항: 엔비디아 GPU 및 x86 CPU 외에도 트리톤에 Arm CPU의 AI 추론 워크로드를 최적화하는 백엔드가 포함되어 있다.

트리톤은 클라우드, 데이터 센터, 엔터프라이즈 에지 및 임베디드 내 GPU 및 CPU에 대한 AI 추론을 제공하며 AWS, 구글 클라우드(Google Cloud), 마이크로소프트 애저(Azure) 및 알리바바(Alibaba) 클라우드 PAI-EAS에 통합되며 엔비디아 AI 엔터프라이즈(Enterprise)에 포함돼 있다.

엔비디아 AI 엔터프라이즈는 AI 개발 및 배포를 위한 엔드 투 엔드 소프트웨어 제품군이다. 엔비디아에서 최적화, 인증 및 지원을 제공하며, 고객이 온프레미스 데이터 센터 및 프라이빗 클라우드의 메인스트림 서버에서 AI 워크로드를 실행할 수 있도록 지원한다.

트리톤 외에도 텐서 RT는 텐서플로우(TensorFlow) 및 파이토치(PyTorch)와 통합되어 코드 한 줄만으로 추론 인프레임에 비해 3배 빠른 성능을 제공한다. 이는 개발자들에게 매우 단순화된 워크플로우 상에서 텐서RT의 성능을 제공한다.

엔비디아 텐서 RT 8.2 최신 소프트웨어개발키트(SDK)는 고성능 딥러닝 추론을 가속화하여 클라우드, 온프레미스 또는 엣지에서 높은 처리량과 저 지연시간을 제공한다. 새로운 최적화를 통해 수십억 개의 매개 변수를 가진 언어 모델을 실시간으로 실행할 수 있다.

업계 선도 기업, 추론 위해 엔비디아 AI 플랫폼 채택

업계 선도 기업들은 엔비디아 AI 추론 플랫폼을 사용하여 비즈니스 운영을 개선하고 고객에게 새로운 AI 서비스를 제공하고 있다.

마이크로소프트 애저 코그니티브 서비스(Cognitive Services)는 지능형 애플리케이션을 구축하기 위해 고품질 AI 모델에 클라우드 기반 API를 제공한다. 마이크로소프트 팀즈(Teams)는 사용자에게 정확한 실시간 캡션(Caption)과 전사(Transcription)를 제공하는 스피치-투-텍스트(speech-to-text) 모델을 실행하는 데 트리톤을 사용하고 있다.

마이크로소프트 팀즈 콜링, 미팅 및 디바이스 총괄 PM 매니저인 샬런드라 차브라(Shalendra Chhabra)는 "마이크로소프트 팀은 매달 약 2억 5천만 명의 활성 사용자를 보유하고 있으며, 전세계 커뮤니케이션과 협업을 위한 필수적인 도구"라며, "이러한 AI 모델은 매우 복잡하다. 수십 개 언어에 걸쳐 정확한 결과를 제공하려면 수천만 개의 신경 네트워크 매개 변수가 필요하다. 모델이 클수록 실시간 및 비용 효율적으로 실행하기 어렵다. 마이크로소프트 애저 코그니티브 서비스에 적용된 엔비디아 GPU와 트리톤 추론 서버는 거의 실시간으로 AI를 통해 28개 언어와 방언을 사용해 비용 효율적 방식으로 실시간 캡션 및 전사 기능을 지원한다"고 말했다.

에너지 기술 솔루션을 선도하는 순수 재생 에너지 회사인 지멘스 에너지는 트리톤을 사용해 발전소 고객들이 AI로 설비를 관리할 수 있도록 돕고 있다.

지멘스 에너지의 자율 운영 포트폴리오 매니저 애릭 오트(Arik Ott)는 "엔비디아 트리톤 추론 서버의 유연성 덕분에 레거시 소프트웨어 시스템을 갖춘 카메라와 센서로 구성된 매우 복잡한 발전소들이 자동화를 위한 산업 혁명에 동참할 수 있게 됐다"고 말했다.

한편, 스냅챗(Snapchat), 스펙타클스(Spectacles), 비트모지(Bitmoji)와 같은 제품과 서비스로 구성된 글로벌 카메라 및 소셜 미디어 회사인 스냅(Snap)은 엔비디아 기술을 통해 수익을 높이고 비용을 낮추고 있다.

스냅의 매핑 및 수익화 그룹 엔지니어링 담당 부사장인 니마 카제노우리(Nima Khajehnouri)는 "엔비디아 GPU 및 텐서 RT를 사용해 스냅은 기계 학습 추론 비용 효율성을 50%까지 개선하고 서비스 대기 시간을 2배 단축한다"라며 "이로써 우리는 더 무겁고 정확한 광고 및 콘텐츠 순위 모델을 실험하고 구축할 컴퓨팅 헤드룸을 확보할 수 있었다"고 설명했다.

추론을 위한 엔비디아 AI 플랫폼, 새로운 엔비디아 인증 시스템 및 A2 GPU 추가

엔비디아 인증 시스템(NVIDIA-Certified Systems)을 통해 고객은 고성능 및 비용 효율적이며 확장 가능한 인프라의 다양한 최신 AI 애플리케이션을 위한 시스템을 식별하고 구입 및 배치할 수 있다. 이는 엣지 AI의 두 가지 카테고리를 새롭게 추가한다.

확장된 카테고리 덕분에 엔비디아의 시스템 파트너들은 엔비디아 암페어(Ampere) 아키텍처 기반 GPU로 거의 모든 워크로드를 처리할 수 있는 엔비디아 인증 시스템의 전체 라인업을 고객에게 제공할 수 있다.

이는 엣지 서버의 추론 및 엣지 AI를 위한 엔트리 레벨의 최신 저전력 소형 가속기인 엔비디아 A2 GPU를 포함한다. 메인스트림 엔터프라이즈 서버용 엔비디아 A30과 최고 성능의 AI 서버용 엔비디아 A100과 함께 엔비디아 A2는 엣지, 데이터 센터 및 클라우드 전반에 걸쳐 포괄적인 AI 추론 가속화를 제공한다.

글로벌 엔터프라이즈 시스템 제공업체인 아토스(Atos), 델 테크놀로지스(Dell Technologies), 기가바이트(GIGABYTE), 휴렛 팩커드 엔터프라이즈(Hewlett Packard Enterprise), 인스퍼(Inspur), 레노버(Lenovo) 및 슈퍼마이크로(Supermicro)는 AI 시스템 포트폴리오에서 엔비디아 인증 시스템을 통해 엔비디아 AI 엔터프라이즈를 지원한다.

이 밖에도 어드밴텍(Adventech), 애즈락랙(ASRock Rack), 에이수스(ASUS), H3C, 넷트릭스(Nettrix) 및 QCT와 같은 추가적인 시스템 공급사에서 다양한 워크로드를 위해 엔비디아 인증 시스템을 제공한다. 최초로 엔비디아 인증 시스템을 통과한 엣지 카테고리는 어드밴텍, 기가바이트, 레노버를 포함한 선도 제공업체에서 곧 출시될 예정이다.

출시 일정

트리톤은 프레임워크, 툴킷, 사전 훈련 모델 및 주피터 노트북(Jupyter Notebooks)을 포함하는 GPU 최적화 AI 소프트웨어 허브인 엔비디아 NGC 카탈로그와 트리톤 깃허브 리포지토리(Triton GitHub repository)에서 오픈 소스 코드로 이용 가능하다.

텐서 RT는 텐서 RT 페이지에서 엔비디아 개발자 프로그램 회원을 대상으로 제공된다. 최신 버전의 플러그인, 파서(parsers) 및 샘플도 텐서 RT 깃허브 리포지토리에서 오픈 소스로 제공된다. 엔비디아 고객은 전 세계에 제공되는 엔비디아 런치패드(LaunchPad)의 큐레이티드 랩을 통해 엔비디아 AI 엔터프라이즈 소프트웨어 제품군의 엔비디아 트리톤을 이용할 수 있다.

엔비디아 AI 엔터프라이즈 소프트웨어 제품군은 Atea, 액시언즈(Axians), 캐러소프트 데크놀로지 코퍼레이션(Carahsoft Technology Corp.), 컴퓨터센터(Computacenter), 인사이트 엔터프라이즈(Insight Enterprise), 프레시디오(Presidio), 시리우스(Sirius), 소프트서브(SoftServe), SVA 시스템 버트리브 알렉산더 GmbH(SVA System Vertrieb Alexander GmbH), TD 시넥스(TD SYNNEX), 트레이스(Trace)3 및 월드와이트테크놀로지(World Wide Technology)를 포함한 전세계 엔비디아 파트너로부터 제공된다.

엔비디아, NVIDIA, 전세계, 25000명 이상, 고객들, AI 추론 플랫폼, 트리톤 추론 서버, Triton Infereence Server, 최신 업데이트, 발표

AI 추론 플랫폼, ﻿엔비디아 ‘트리톤 추론 서버’ 업데이트 공개

IT | AI 추론 플랫폼, ﻿엔비디아 ‘트리톤 추론 서버’ 업데이트 공개

AI 추론 플랫폼, 엔비디아 ‘트리톤 추론 서버’ 업데이트 공개

IT | AI 추론 플랫폼, 엔비디아 ‘트리톤 추론 서버’ 업데이트 공개