생성형 AI 혁신 위한 서비스 제공, 엔비디아 AWS와 전략적 협력 확대

IT | 생성형 AI 혁신 위한 서비스 제공, 엔비디아 AWS와 전략적 협력 확대

권경욱 기자 IT 0 0 2023.11.29 10:52

엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 AWS 리인벤트(re:Invent)에서 아마존닷컴(Amazon.com)의 자회사인 아마존웹서비스(Amazon Web Services, AWS)와 전략적 협력을 확대한다고 발표했다. 이번 협력으로 양사는 고객의 생성형 AI 혁신을 위한 최첨단 인프라, 소프트웨어, 서비스를 제공할 수 있도록 지원한다.

양사는 파운데이션 모델(Foundation Model) 훈련과 생성형 AI 애플리케이션 구축에 이상적인 엔비디아와 AWS의 최고 기술을 결합할 예정이다. 여기에는 차세대 GPU, CPU와 AI 소프트웨어를 갖춘 엔비디아의 최신 멀티노드 시스템부터 AWS 니트로(Nitro) 시스템 고급 가상화와 보안, EFA(Elastic Fabric Adapter) 상호 연결과 울트라클러스터(UltraCluster) 확장성까지 다양한 기술이 포함된다.

이들은 초기 머신러닝(ML) 선구자들에게 최첨단 기술 발전에 필요한 컴퓨팅 성능을 제공해왔다. 이번 협력 확대는 이처럼 생성형 AI 시대를 견인해 온 장기적인 관계를 기반으로 이루어졌다.

모든 산업 분야에서 생성형 AI를 강화하기 위한 협력 확대의 일환은 다음과 같다.

Ÿ AWS는 새로운 멀티노드 NV링크(NVLink)™ 기술이 적용된 엔비디아® GH200 그레이스 호퍼 슈퍼칩(Grace Hopper Superchips)을 클라우드에 도입한 최초의 클라우드 제공업체가 된다. 엔비디아 GH200 NVL32 멀티노드 플랫폼은 32개의 그레이스 호퍼 슈퍼칩과 엔비디아 NV링크와 NV스위치(NVSwitch)™ 기술을 하나의 인스턴스로 연결한다. 이 플랫폼은 아마존의 강력한 네트워킹(EFA)과 연결된 아마존 EC2(Elastic Compute Cloud) 인스턴스에서 사용할 수 있다. 이는 고급 가상화(AWS 니트로 시스템)와 하이퍼스케일 클러스터링(아마존 EC2 울트라클러스터)을 통해 지원돼 공동 고객은 수천 개의 GH200 슈퍼칩으로 확장할 수 있다.

Ÿ 엔비디아와 AWS가 협력해 엔비디아의 서비스형 AI 훈련인 엔비디아 DGX™ 클라우드(DGX Cloud)를 AWS에 호스팅한다. 이 클라우드는 GH200 NVL32를 탑재한 최초의 DGX 클라우드로 개발자에게 단일 인스턴스에서 가장 큰 공유 메모리를 제공한다. AWS의 DGX 클라우드는 1조 개 이상의 파라미터에 이르는 최첨단 생성형 AI와 대규모 언어 모델의 훈련을 가속화한다.

Ÿ 엔비디아와 AWS는 세계에서 가장 빠른 GPU 기반 AI 슈퍼컴퓨터를 구축하기 위해 프로젝트 세이바(Project Ceiba)에서 협력하고 있다. 이 슈퍼컴퓨터는 엔비디아의 리서치와 개발팀을 위해 AWS가 호스팅하는 GH200 NVL32와 아마존 EFA 인터커넥트를 갖춘 대규모 시스템이다. 이는 16,384개의 엔비디아 GH200 슈퍼칩을 탑재하고 65 엑사플롭(exaflops)의 AI를 처리할 수 있다. 이러한 업계 최초의 슈퍼컴퓨터는 엔비디아가 차세대 AI 혁신을 추진하는 데 사용될 예정이다.

Ÿ AWS는 세 가지 새로운 아마존 EC2 인스턴스를 추가로 출시할 예정이다. 여기에는 대규모 최첨단 생성형 AI와 HPC 워크로드를 위한 엔비디아 H200 텐서 코어(Tensor Core) GPU 기반의 P5e 인스턴스가 포함된다. 또한 G6와 G6e 인스턴스는 각각 엔비디아 L4 GPU와 엔비디아 L40S GPU로 기반으로 하며, AI 미세 조정, 추론, 그래픽과 비디오 워크로드와 같은 광범위한 애플리케이션에 적합하다. G6e 인스턴스는 특히 생성형 AI 지원 3D 애플리케이션을 연결하고 구축하기 위한 플랫폼인 엔비디아 옴니버스(Omniverse)™를 통해 3D 워크플로우, 디지털 트윈과 기타 애플리케이션을 개발하는 데 이상적이다.

AWS CEO인 아담 셀립스키(Adam Selipsky)는 "AWS와 엔비디아는 세계 최초의 GPU 클라우드 인스턴스를 시작으로 13년 이상 협력해 왔다. 오늘날 우리는 그래픽, 게이밍, 고성능 컴퓨팅, 머신러닝, 그리고 이제 생성형 AI를 포함한 워크로드를 위한 가장 광범위한 엔비디아 GPU 솔루션을 제공한다. 우리는 차세대 엔비디아 그레이스 호퍼 슈퍼칩과 AWS의 강력한 네트워킹, EC2 울트라클러스터의 하이퍼스케일 클러스터링, 니트로의 고급 가상화 기능을 결합해 AWS가 GPU를 실행하기 가장 좋은 환경이 될 수 있도록 엔비디아와 함께 지속적으로 혁신하고 있다"고 말했다.

엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 "생성형 AI는 클라우드 워크로드를 혁신하고 가속 컴퓨팅을 다양한 콘텐츠 생성의 기반에 도입하고 있다. 모든 고객에게 비용 효율적인 최첨단 생성형 AI를 제공한다는 목표로, 엔비디아와 AWS는 전체 컴퓨팅 스택에 걸쳐 협력하고 있다. 이로써 AI 인프라, 가속 라이브러리, 기반 모델부터 생성형 AI 서비스를 확장한다”고 전했다.

엔비디아와 AWS의 최첨단 기술을 결합한 새로운 아마존 EC2 인스턴스

AWS는 멀티노드 NV링크 기술이 탑재된 엔비디아 GH200 그레이스 호퍼 슈퍼칩을 제공하는 최초의 클라우드 제공업체가 될 예정이다. 각 GH200 슈퍼칩은 동일한 모듈에 암(Arm) 기반 그레이스 CPU와 엔비디아 호퍼(Hopper)™ 아키텍처 GPU를 결합한다. GH200 NVL32가 탑재된 단일 아마존 EC2 인스턴스는 최대 20TB의 공유 메모리를 제공함으로써 테라바이트(terabyte) 규모의 워크로드를 지원한다.

이러한 인스턴스는 AWS의 3세대 EFA 인터커넥트를 통해 슈퍼칩당 최대 400Gbps의 저지연, 고대역폭 네트워킹 처리량을 제공한다. 따라서 고객은 EC2 울트라클러스터에서 수천 개의 GH200 슈퍼칩으로 확장할 수 있다.

GH200 NVL32가 탑재된 AWS 인스턴스는 고객에게 슈퍼컴퓨터급 성능에 대한 온디맨드(on-demand) 액세스를 제공한다. 이는 FM, 추천 시스템, 벡터 데이터베이스 등 복잡한 생성형 AI 워크로드를 위해 여러 노드에 분산해야 하는 대규모 AI/ML 워크로드에 매우 중요하다.

엔비디아 GH200 기반 EC2 인스턴스는 현 세대 H100 기반 EC2 P5d 인스턴스에 비해 7.2배 증가한 4.5TB의 HBM3e 메모리를 탑재해 고객이 더 큰 모델을 실행하는 동시에 훈련 성능을 개선할 수 있도록 지원한다. 또한 CPU-GPU 메모리 상호 연결은 PCIe보다 최대 7배 높은 대역폭을 제공해 애플리케이션에 사용할 수 있는 총 메모리를 확장하는 칩 간 통신을 가능하게 한다.

GH200 NVL32가 탑재된 AWS 인스턴스는 고밀도로 구성된 서버 랙(racks)이 최대 성능으로 효율적으로 작동할 수 있도록 액체 냉각 기능을 갖춘 최초의 AWS AI 인프라가 될 예정이다.

GH200 NVL32를 사용하는 EC2 인스턴스는 차세대 EC2 인스턴스를 위한 기본 플랫폼인 AWS 니트로 시스템의 이점도 제공한다. 니트로 시스템은 호스트 CPU와 GPU에서 특수 하드웨어로 기능에 대한 I/O를 오프로드하여 보다 일관된 성능을 제공하며, 강화된 보안은 처리 중에 고객 코드와 데이터를 보호한다.

AWS, 그레이스 호퍼 기반 엔비디아 DGX 클라우드 호스팅하는 최초 기업

AWS는 엔비디아와 협력해 GH200 NVL32 NV링크 인프라로 구동되는 엔비디아 DGX 클라우드를 호스팅한다. 엔비디아 DGX 클라우드는 기업이 가장 복잡한 LLM와 생성형 AI 모델을 훈련하기 위한 멀티노드 슈퍼컴퓨팅에 빠르게 액세스할 수 있도록 지원하는 AI 슈퍼컴퓨팅 서비스이다. 이를 통해 통합된 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어와 함께 엔비디아 AI 전문가에게 직접 액세스할 수 있다.

엔비디아 AI 개발을 가속화하는 대규모 프로젝트 세이바 슈퍼컴퓨터

엔비디아와 AWS가 구축 중인 프로젝트 세이바 슈퍼컴퓨터는 아마존 VPC(Virtual Private Cloud) 암호화 네트워킹과 고성능 블록 스토리지 서비스인 아마존 EBS(Elastic Block Store) 등의 AWS 서비스와 통합된다. 이를 통해 엔비디아는 포괄적인 AWS 기능 세트에 액세스할 수 있다. 엔비디아는 이 슈퍼컴퓨터를 연구 개발에 활용해 LLM, 그래픽과 시뮬레이션, 디지털 생물학, 로보틱스, 자율 주행 자동차, 얼스-2(Earth-2) 기후 예측 등을 위한 AI를 발전시킬 계획이다.

엔비디아, AWS와 함께 생성형 AI, HPC, 디자인, 시뮬레이션 가속화

AWS P5e 인스턴스에는 최대 규모의 LLM 개발, 훈련, 추론을 지원하도록 최신 H200 GPU가 탑재된다. 이는 H100 GPU보다 1.8배 더 크고 1.4배 빠른 141GB의 HBM3e GPU 메모리를 제공한다. 이러한 GPU 메모리 성능 향상과 함께 최대 3,200Gbps의 EFA 네트워킹을 지원하는 AWS 니트로 시스템으로 고객은 AWS에서 최첨단 모델을 지속적으로 구축, 훈련, 배포할 수 있다.

AWS는 엔비디아 L40S GPU가 탑재된 새로운 아마존 EC2 G6e 인스턴스와 L4 GPU 기반 G6 인스턴스를 발표했다. 이로써 영상, AI, 그래픽 워크로드를 위한 비용 효율적이고 에너지 효율적인 솔루션을 제공할 예정이다. 이 새로운 제품군은 스타트업, 기업, 연구자들이 AI와 고해상도 그래픽 요구 사항을 충족할 수 있도록 지원한다.

G6e 인스턴스는 생성형 AI와 디지털 트윈 애플리케이션과 같은 복잡한 워크로드를 처리하도록 설계됐다. 엔비디아 옴니버스를 사용하면 AWS IoT 트윈메이커(AWS IoT TwinMaker), 지능형 챗봇, 어시스턴트, 검색, 요약 등과 같은 서비스의 실시간 데이터를 이용할 수 있다. 이를 통해 사실적인 3D 시뮬레이션 개발과 상황에 맞게 조정, 향상 등이 가능하다. 아마존 로보틱스(Robotics)와 아마존 풀필먼트 센터(Fulfillment Centers)는 엔비디아 옴니버스와 AWS IoT 트윈메이커로 구축한 디지털 트윈을 통합해 창고 설계와 흐름을 최적화한다. 또한, 더 지능적인 로봇 어시스턴트를 교육하고, 고객 배송을 개선할 수도 있다.

L40S GPU는 최대 1.45페타플롭(petaflops)의 FP8 성능을 제공하고, 최대 209테라플롭(tetaflops)의 레이 트레이싱 성능을 제공하는 레이 트레이싱 코어를 탑재하고 있다. G6 인스턴스에 탑재된 L4 GPU는 저비용의 에너지 효율적인 솔루션을 제공한다. 여기에는 자연어 처리, 언어 번역, AI 영상과 이미지 분석, 음성 인식, 개인화 등을 지원하는 AI 모델 배포를 지원한다. 또한 L40S GPU는 실시간 시네마급 그래픽 제작과 렌더링, 게임 스트리밍과 같은 그래픽 워크로드를 가속화한다. 이 세 가지 인스턴스는 모두 내년에 출시된다.

생성형 AI 개발 촉진하는 AWS 기반 엔비디아 소프트웨어

엔비디아는 생성형 AI 개발 촉진을 위해 AWS에서 소프트웨어를 제공한다고 밝혔다. 엔비디아 네모 (NeMo) ™ 리트리버 마이크로서비스(Retriever microservice)는 가속화된 시맨틱 검색을 사용해 매우 정확한 챗봇과 요약 도구를 만드는 새로운 도구를 제공한다. 엔비디아 바이오네모(BioNeMo™)는 현재 아마존 세이지메이커(SageMaker)에서 사용 가능하며, 곧 AWS의 엔비디아 DGX 클라우드에도 출시될 예정이다. 바이오네모를 통해 제약 회사들은 자체 데이터를 사용해 모델 트레이닝을 간소화하고 가속화함으로써 신약 개발 속도를 높일 수 있다.

AWS 기반 엔비디아 소프트웨어는 아마존이 서비스와 운영에 새로운 혁신을 가져올 수 있도록 돕는다. AWS는 일부 차세대 아마존 타이탄(Titan) LLM을 훈련하는 데 엔비디아 네모 프레임워크를 사용하고 있다. 아마존 로보틱스는 가상 환경에서 자율 창고를 자동화, 최적화, 계획하기 위한 디지털 트윈을 구축한 후 이를 실제 환경에 배포하기 위해 엔비디아 옴니버스 아이작(Isaac)을 도입했다.

엔비디아, NVIDIA, 아마존웹서비스, AWS, Amazon Web Service, AWS 리인벤트, re:Invent, 아마존닷컴, amazon.com, 전략적 협력, 확대, 발표