IT | 과학 연구 활동 지원 위한 세계에서 가장 빠른 HPC 액셀러레이터, AMD 인스팅트 MI100 액셀러레이터 발표
AMD가 x86 서버 GPU 최초로 10 테라플롭스(FP64) 이상의 성능을 지원하는 세계에서 가장 빠른 고성능 컴퓨팅(HPC) GPU AMD 인스팅트 MI100(AMD Instinct™ MI100)를 발표했다.
AMD 인스팅트 MI1000은 델(Dell), 휴렛팩커드 엔터프라이즈(HPE), 기가바이트(Gigabyte), 슈퍼마이크로(Supermicro) 등 파트너사의 가속 컴퓨팅 플랫폼과 AMD 에픽(AMD EPYC™) 프로세서, 그리고 ROCm 4.0 오픈 소프트웨어 플랫폼과 호환되는 동시에 도래하는 엑사스케일 시대에 다양한 연구 활동을 지원하기 위해 설계됐다.
새로운 AMD CDNA 아키텍처 기반의 AMD 인스팅트 MI100 GPU는 AMD 에픽 프로세서와 함께 HPC 및 AI 기술 발전을 위한 새로운 수준의 가속 시스템을 지원한다. MI100은 HPC에서 최대 11.5 테라플롭스의 최대 FP64 성능을 지원하며, AI 및 머신 러닝 워크로드에서는 최대 46.1 테라플롭스의 최대 FP32 매트릭스(Matrix) 성능을 지원한다. MI100은 새로운 AMD 매트릭스 코어(AMD Matrix Core) 기술을 통해 AI 트레이닝 워크로드에서 전작 대비 7배 향상된 FP16 최대 이론 부동소수점 성능(theoretical peak floating point performance)을 지원한다.
AMD 데이터센터 GPU 및 가속 프로세싱 사업 부문 부사장 브래드 맥크레디(Brad McCredie)는 “AMD는 세계에서 가장 빠른 HPC GPU인 AMD 인스팅트 MI100 출시로 엑사스케일 컴퓨팅 분야에서 또 하나의 중요한 걸음을 내딛게 됐다”며 “과학 컴퓨팅 워크로드 지원을 위해 설계된 MI100은 AMD ROCm 오픈 소프트웨어 플랫폼과 결합해 과학자와 연구자들에게 HPC 워크로드를 위한 우수한 기반을 제공한다”고 밝혔다.
엑사스케일 시대를 위한 오픈 소프트웨어 플랫폼
AMD ROCm 개발자 소프트웨어는 엑사스케일 컴퓨팅을 위한 기반을 제공한다. ROCm은 컴파일러(compiler), 프로그래밍 API 및 라이브러리로 구성된 오픈소스 툴셋으로, 엑사스케일 소프트웨어 개발자들의 고성능 애플리케이션 개발을 돕는다. 또한, ROCm 4.0은 MI100 기반 시스템의 규모에 맞게 최적화되었으며, 컴파일러를 오픈소스로 업그레이드하고 OpenMP®와 HIP를 모두 지원하도록 통합했다. ROCm 4.0에 맞추어 최적화된 파이토치(PyTorch) 및 텐서플로우(Tensorflow) 프레임워크는 MI100를 통해 더 높은 성능을 제공할 수 있게 되었으며, ROCm 4.0은 HPC, ML 및 AI 애플리케이션 개발자들이 뛰어난 성능의 휴대용 소프트웨어를 개발할 수 있도록 지원하게 되었다.
오크릿지 리더십 컴퓨팅 연구소(Oak Ridge Leadership Computing Facility)의 브론슨 메서(Bronson Messer) 과학 부문 소장은 “MI100 액셀러레이터 사용을 통해 타 GPU 대비 최대 2~3배 높은 성능 향상 등 매우 만족스러운 결과를 얻었다”며, “성능 전반에 대한 소프트웨어의 영향력을 주목해야 한다. ROCm 오픈 소프트웨어 플랫폼과 HIP 개발자 툴은 오픈 소스로 제공되고 다양한 플랫폼과 호환이 가능해, 최초의 하이브리드 CPU/GPU 시스템의 도입 이후 계속 사용하고 있다”고 전했다.
AMD 인스팅트 MI100 액셀러레이터가 제공하는 주요 혜택은 아래와 같다.
· AMD CDNA 아키텍처 – 엑사스케일 시대를 위한 MI100 액셀러레이터에 탑재된 AMD GPU에 적용된 AMD CDNA 아키텍처는 탁월한 성능과 전력 효율성을 지원한다.
· HPC 워크로드에서 선도적인 FP64 및 FP32 성능 지원 – 11.5 테라플롭스의 최대 FP64 성능과 23.1테라플롭스의 최대 FP32 성능을 지원하는 MI100은 전 세계 과학자와 연구자들이 생활 과학, 에너지, 금융, 학계, 공공기관, 국방 사업 전반에 걸쳐 유의미한 결과를 낼 수 있도록 돕는다.
· HPC 및 AI 기술을 위한 매트릭스 코어 기술 – FP32, FP16, bFloat16, Int8, Int4 등 모든 범위의 단일 및 혼합 정밀 매트릭스 연산을 위해 개발된 매트릭스 코어 기술로, HPC와 AI의 융합을 촉진한다.
· 2세대 AMD 인피니티 패브릭(AMD Infinity™ Fabric) 기술 – MI100은 최대 2배 높은 PCIe 4.0 이상의 P2P(peer-to-peer) 최대 I/O 대역폭과 GPU당 초당 최대 340GB의 통합 대역폭을 지원하는 AMD 인피니티 패브릭 링크(Links)를 제공한다. 서버 내에서 MI100 GPU는 최대 두 개의 연결된 쿼드 GPU 하이브(hive)를 구성할 수 있으며, 초당 552GB의 P2P I/O 대역폭으로 빠른 데이터 공유를 지원한다.
· 초고속 HBM2 메모리 – 32GB의 고대역폭 HBM2 메모리를 통해 1.2GHz의 클럭 속도와 초당 1.23GB의 초고대역 메모리 대역폭으로 대용량의 데이터를 지원하고 메모리에 데이터를 저장하고 추출하는 과정에서 발생하는 병목현상을 해결하는 데 도움을 준다.
· 최신 PCIe 4.0 지원 – 최신 PCIe 4.0 기술이 적용되어 CPU와 GPU 간 초당 최대 64GB의 최고 이론 데이터 전송 대역폭을 지원한다.
AMD 인스팅트 MI100 액셀러레이터는 2020년 말부터 아래와 같은 주요 OEM 및 ODM 파트너사들을 통해 출시될 예정이다.
델 테크놀로지스(Dell Technologies)의 파워엣지(PowerEdge) 서버 솔루션 제품 총괄 라비 펜데칸티(Ravi Pendekanti) 부사장은 “델 EMC 파워엣지 서버는 AMD 인스팅트 MI100를 도입해 더욱 빠른 속도로 데이터로부터 인사이트를 추출해낼 수 있을 것”이라며, “이를 통해 우리 고객들은 더 강력하고 효율적인 HPC 및 AI 연산 성능 결과를 얻게 될 것”이라고 밝혔다. 또한, “AMD는 델 테크놀로지스의 데이터센터 혁신을 뒷받침하는 중요한 파트너로 자리매김 해왔다”며, “AMD 인스팅트 액셀러레이터의 고성능은 자사 파워엣지 서버의 AI 및 HPC 포트폴리오에 잘 부합한다”고 전했다.
기가바이트 NCBU 부문 앨런 첸(Alan Chen) 부사장은 “AMD와의 전략적 파트너 관계를 통해 고객들에게 HPC를 위한 서버 하드웨어를 제공할 수 있게 되어 기쁘게 생각한다”며, “AMD 인스팅트 MI100 액셀러레이터는 에너지 연구, 분자 역학, 딥러닝 교육 등을 위해 보다 폭넓은 연결성과 높은 데이터 대역폭을 제공하는 차세대 데이터센터 HPC 성능의 상징과도 같다”고 밝혔다. 또한, “기가바이트 포트폴리오의 새로운 액셀러레이터를 통해 자사의 고객들은 과학 및 산업용 HPC 워크로드 전반에 걸쳐 향상된 성능을 경험할 수 있을 것”이라고 전했다.
빌 마넬(Bill Mannel) HPE HPC 사업부 부사장 겸 총괄은 “고객들은 HPC, 딥러닝 및 분석 등 복잡하고 데이터 집중적인 워크로드를 해결하기 위해 HPE 아폴로(Apollo) 시스템을 사용한다”며, “새로운 HPE 아폴로 6500 10세대 플러스(HPE Apollo 6500 Gen10 Plus) 시스템 출시를 통해 2세대 AMD 에픽™ 프로세서와 함께 보다 뛰어난 연결성과 데이터 처리를 가능하게 하는 새로운 AMD 인스팅트 MI100 액셀러레이터를 지원하게 되면서 워크로드 성능 향상을 위한 포트폴리오를 한층 더 발전시키게 되었다”고 밝혔다. 또한, “앞으로도 AMD와의 지속적인 협업을 통해 더욱 다양한 최신 CPU 및 액셀러레이터를 선보일 수 있게 되기를 기대한다”고 전했다.
슈퍼마이크로 필드 애플리케이션 엔지니어링 및 사업 개발 담당 빅 말얄라(Vik Malyala) 부사장은 “AMD 인스팅트 MI100 GPU 액셀러레이터 출시를 통해 AMD가 다시 한번 HPC 분야에 큰 기여를 하게 되어 기쁘게 생각한다”며, “새로운 CDNA 아키텍처가 지원하는 컴퓨트 MI100의 고대역폭 메모리 및 GPU의 조합은 자사 고객들이 필요로 하는 가속화 컴퓨팅 솔루션 및 엔터프라이즈 워크로드를 지원할 것”이라고 밝혔다. 또한, “AMD 인스팅트 MI100은 자사의 멀티 GPU 서버와 광범위한 고성능 시스템 포트폴리오와 서버 구축을 위한 솔루션에 중요한 업데이트 사항이 될 것”이라고 전했다.
AMD, x86 서버 GPU, 최초, 10테라플롭스, FP64, 세계에서 가장 빠른, 고성능 컴퓨팅, HPC GPU, 인스팅트 MI100, Instinct MI100, 발표