엔비디아 블랙웰(NVIDIA Blackwell) GPU 플랫폼 제공, AWS와 생성형 AI 혁신 위해 협력 확대

GTC | 엔비디아 블랙웰(NVIDIA Blackwell) GPU 플랫폼 제공, AWS와 생성형 AI 혁신 위해 협력 확대

권경욱 기자 GTC 0 0 03.21 09:28

엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 엔비디아 블랙웰(NVIDIA Blackwell) GPU 플랫폼이 아마존닷컴(Amazon.com)의 자회사인 아마존웹서비스(이하 AWS)에 제공된다고 발표했다. 이로써 엔비디아와 AWS는 양사가 오랫동안 맺어온 전략적 협력을 확대할 예정이다. AWS는 엔비디아 GB200 그레이스 블랙웰 슈퍼칩과 B100 텐서 코어 GPU를 제공함으로써 고객이 새로운 인공지능(AI) 기능을 활용할 수 있도록 가장 안전하고 진보된 인프라, 소프트웨어와 서비스를 지원한다.

엔비디아와 AWS는 양사의 최고 기술을 지속적으로 통합해 나가고 있다. 여기에는 차세대 엔비디아 블랙웰 플랫폼과 AI 소프트웨어를 갖춘 엔비디아의 최신 멀티노드 시스템, AWS의 니트로 시스템(Nitro System)과 AWS KMS(키 관리 서비스)의 고급 보안, 엘라스틱 패브릭 어댑터(EFA) 페타비트 규모의 네트워킹, 아마존 EC2(엘라스틱 컴퓨트 클라우드) 울트라클러스터 하이퍼스케일 클러스터링 등이 있다. 이런 기술을 함께 사용하면 아마존 EC2에서 이전 세대 엔비디아 GPU보다 더 빠르고, 저렴한 비용으로 대규모로 수조 개의 파라미터 거대 언어 모델(LLM)에 대한 실시간 추론을 구축, 실행하는 인프라와 도구를 제공할 수 있다.

AWS의 CEO인 아담 셀립스키(Adam Selipsky)는 "양사는 13년전부터 긴밀하게 협력하며 AWS에서 세계 최초의 GPU 클라우드 인스턴스를 함께 출시했다. 현재 우리는 고객에게 가장 광범위한 엔비디아 GPU 솔루션을 제공하고 있습니다. 엔비디아의 차세대 그레이스 블랙웰 프로세서는 생성형 AI와 GPU 컴퓨팅에서 괄목할 만한 진전을 했다는 것을 뜻한다. AWS의 강력한 엘라스틱 패브릭 어댑터 네트워킹(Elastic Fabric Adapter Networking), 아마존 EC2 울트라클러스터의 대규모 클러스터링, 독보적인 니트로 시스템의 고급 가상화와 보안 기능을 함께 사용하면 수조 개의 파라미터 거대 언어 모델을 다른 어느 곳보다 빠르고 대규모로 안전하게 구축하고 실행할 수 있다. 양사는 AWS를 클라우드에서 엔비디아 GPU를 실행하기 위한 최고의 환경으로 만들기 위해 지속적으로 혁신하고 있다"고 말했다.

엔비디아의 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 "AI는 전례 없는 속도로 혁신을 주도하며 산업 전반에 걸쳐 새로운 애플리케이션, 비즈니스 모델 및 혁신을 이끌고 있다. AWS와의 협력을 통해 새로운 세대의 AI 기능을 가속화하고 고객에게 전례 없는 컴퓨팅 성능을 제공해 가능성의 범위를 넓혀가고 있다"고 말했다.

AWS와 엔비디아의 최신 혁신으로 최첨단 LLM의 트레이닝 가속화…1조 개 이상의 파라미터 처리 가능

AWS는 5세대 엔비디아 NV링크™로 상호 연결된 72개의 블랙웰 GPU와 36개의 그레이스 CPU로 구성된 GB200 NVL72를 갖춘 엔비디아 블랙웰 플랫폼을 제공할 예정이다. 아마존의 강력한 네트워킹(EFA)과 연결하고, 고급 가상화(AWS 니트로 시스템)와 하이퍼스케일 클러스터링(Amazon EC2 UltraCluster)의 지원을 받으면 고객은 수천 개의 GB200 슈퍼칩까지도 확장이 가능하다. 엔비디아 블랙웰은 AWS상에서 상당한 양의 컴퓨터 리소스를 필요로 하는 수조 개의 파라미터의 언어 모델의 추론 작업을 획기적으로 향상시킨다.

AWS는 엔비디아 H100 기반 EC2 P5 인스턴스의 성공을 기반으로, 대규모로 생성형 AI 훈련과 추론을 가속화하는 EC2 울트라클러스터에 배치된 새로운 B100 GPU를 탑재한 EC2 인스턴스를 제공할 계획이다. 고객들은 머신 러닝용 아마존 EC2 캐파시티 블록(Capacity Block)을 통해 엔비디아 H100 기반 EC2 P5 인스턴스 단기간 사용이 가능하다. 또한 AWS에서 공동으로 만들어진 AI 플랫폼인 엔비디아 DGX™ 클라우드에서도 GB200을 사용할 수 있다. 엔비디아 DGX 클라우드는 엔터프라이즈 개발자가 고급 생성형 AI 모델을 구축하고 배포하는 데 필요한 인프라와 소프트웨어에 대해 전용 액세스를 제공한다. AWS상에서의 블랙웰 기반 DGX 클라우드 인스턴스는 1조 개 이상의 파라미터를 처리할 수 있는 최첨단 생성형 AI와 LLM의 개발을 가속화할 것이다.

AWS 니트로 시스템, AWS KMS, 암호화된 EFA와 블랙웰 암호화를 통한 AI 보안 강화

고객이 조직에서 AI를 빠르게 구현하려면 훈련 워크플로우 전반에 걸쳐 데이터가 안전하게 처리되고 있는지 확인해야 한다. 모델 가중치의 보안은 고객의 지적 재산 보호, 모델 변조 방지, 모델 무결성 유지에 있어 가장 중요한 요소다. 모델 가중치는 모델이 훈련하는 동안 훈련하는 파라미터로서 예측능력에 매우 중요한 부분이다.

AWS AI 인프라와 서비스에는 이미 고객이 데이터를 제어하고 제3자 모델 제공업체와 공유되지 않게 만드는 보안 기능이 마련돼 있다. AWS 니트로 시스템과 엔비디아 GB200의 결합은 권한이 없는 개인이 모델 가중치에 액세스하는 것을 방지함으로써 AI 보안을 한층 더 강화한다. GB200은 GPU 간 NV링크(NVLink) 연결에 대한 물리적 암호화를 허용하고 그레이스 CPU에서 블랙웰 GPU로의 데이터 전송을 암호화하며, EFA는 분산 훈련과 추론을 위해 서버 간 데이터를 암호화한다. 또한 GB200은 AWS니트로 시스템의 이점을 활용한다. AWS 니트로 시스템은 기능용 I/O를 호스트 CPU/GPU에서 특수 AWS 하드웨어로 오프로드해 보다 일관된 성능을 제공하고, 향상된 보안을 통해 처리 중에 고객 코드와 데이터를 고객과 AWS 측 모두를 보호한다. 이러한 니트로 시스템의 기능은 AWS상에서만 이용할 수 있으며, 선도적인 사이버 보안 DJQ쳬인 NCC 그룹(NCC Group)의 독립적인 검증을 거쳤다.

아마존 EC2의 GB200을 통해 AWS는 고객이 AWS 니트로 엔클레이브(Nitro Enclave)와 AWS KMS를 사용해 EC2 인스턴스와 함께 신뢰할 수 있는 실행 환경을 구축하도록 지원한다. 니트로 엔클레이브를 통해 고객은 자신의 통제 하에 있는 키 재료(key material)를 사용해 KMS로 훈련 데이터와 가중치를 암호화할 수 있다. 엔클레이브는 GB200 인스턴스 내에서 로딩할 수 있으며 GB200 슈퍼칩과 직접 통신할 수 있다. 이를 통해 KMS는 엔클레이브와 직접 통신하고 암호학적으로 안전한 방식으로 키 재료를 전달할 수 있다. 그러면 엔클레이브는 해당 재료를 GB200으로 전달해 고객 인스턴스로부터 보호하고, AWS 내부 운영자조차도 키에 액세스하거나 훈련 데이터 또는 모델 가중치를 복호화할 수 없도록 보장해, 고객이 자신의 데이터를 완벽하게 통제할 수 있게 한다.

프로젝트 세이바, 블랙웰 활용해 AWS에서 엔비디아의 차세대 AI 혁신 추진

AWS 리인벤트(re:Invent) 2023에서 발표된 프로젝트 세이바(Project Ceiba)는 세계에서 가장 빠른 AI 슈퍼컴퓨터를 구축하기 위해 엔비디아와 AWS가 협력하는 프로젝트이다. AWS에서 독점적으로 호스팅되는 이 슈퍼컴퓨터는 엔비디아의 자체 연구 개발에 사용된다. 20,736개의 B200 GPU를 사용하는 이 전례 없는 슈퍼컴퓨터는 새로운 엔비디아 GB200 NVL72시스템을 기반으로 구축되며, 엔비디아 GB200 NVL72시스템은 5세대 NVLink기술을 특징으로 해, 이를 통해 20,736개의 B200 GPU는 10,368 엔비디아 그레이스 CPU에 연결될 수 있다. 이 슈퍼컴퓨터는 4세대 EFA 네트워킹을 통해 확장되고, 슈퍼칩당 최대 800Gbps의 저지연, 고대역폭 네트워킹 처리량을 제공해 414 엑사플롭의 대규모 AI를 처리할 수 있다.

엔비디아 GB200 NVL72시스템을 기반으로 구축된 세이바는 엔비디아의 이전 세대 GPU 아키텍처인 호퍼(Hopper) 아키텍처를 기반으로 구축하려고 했던 초기 계획에 비해 6배나 향상된 성능을 제공한다. 엔비디아 연구 개발 팀은 세이바를 사용해 LLM, 그래픽(이미지/비디오/3D 생성)과 시뮬레이션, 디지털 생물학, 로봇 공학, 자율 주행 자동차, 엔비디아 어스-2(Earth-2) 기후 예측 등을 위한 AI기술을 발전시켜 미래 세대 AI 혁신을 촉진할 예정이다.

AWS와 엔비디아의 협력으로 헬스케어와 생명 과학 분야에서 생성형 AI 애플리케이션 개발과 고급 사용 사례 가속화

AWS와 엔비디아는 협력해 아마존 세이지메이커(SageMaker)와 엔비디아 NIM™ 추론 마이크로서비스와의 통합함으로써 고성능, 저비용의 생성형 AI를 위한 추론 서비스를 제공하며, 이 서비스는 엔비디아 AI 엔터프라이즈(AI Enterprise)와 함께 사용할 수 있다. 고객은 이 서비스를 사용해 미리 컴파일되고 엔비디아 GPU에서 실행되도록 최적화된 기능모듈(FM)을 세이지메이커에 신속하게 배포해 생성형AI 애플리케이션의 출시 기간을 단축할 수 있다.

AWS와 엔비디아는 생성 화학, 단백질 구조 예측, 약물 분자가 표적과 상호 작용하는 방식을 이해하기 위해 새로운 엔비디아 바이오네모(BioNeMo™) FM을 통해 컴퓨터 지원 신약 개발의 범위를 넓히는 데 협력하고 있다. 이러한 새로운 엔비디아 바이오네모™ FM은 헬스케어와 생명 과학 기관들이 게놈, 전사체(transcriptomic)와 기타 오믹스(omics) 데이터를 저장, 쿼리 및 분석하는 데 도움을 주는 특수 목적 서비스인 AWS 헬스오믹스(HealthOmics)에서 곧 제공될 예정이다.

또한, AWS 헬스오믹스와 엔비디아 헬스케어 팀은 신약 개발, 의료 기술과 건강 분야 디지털 기술을 발전시키기 위한 생성형 AI 마이크로서비스를 출시하기 위해 협력하고 있다. 이에 따라 생물학, 화학, 이미징과 헬스케어 데이터를 위한 새로운 GPU 가속 클라우드 엔드포인트 카탈로그를 제공해 헬스케어 기업이 AWS에서 생성 AI의 최신 발전 기술을 활용할 수 있도록 지원한다.

엔비디아, NVIDIA, 엔비디아 블랙웰, NVIDIA Blackwell, GPU, 플랫폼, 아마존웹서비스, AWS, 제공, 발표

﻿엔비디아 블랙웰(NVIDIA Blackwell) GPU 플랫폼 제공, AWS와 생성형 AI 혁신 위해 협력 확대

GTC | ﻿엔비디아 블랙웰(NVIDIA Blackwell) GPU 플랫폼 제공, AWS와 생성형 AI 혁신 위해 협력 확대

엔비디아 블랙웰(NVIDIA Blackwell) GPU 플랫폼 제공, AWS와 생성형 AI 혁신 위해 협력 확대

GTC | 엔비디아 블랙웰(NVIDIA Blackwell) GPU 플랫폼 제공, AWS와 생성형 AI 혁신 위해 협력 확대