뛰어난 성능과 과학용 생성형 AI를 위한, 인텔 개방형 HPC 및 AI 포트폴리오 공개

홈 > 최신뉴스 > 주요뉴스
주요뉴스

서버 | 뛰어난 성능과 과학용 생성형 AI를 위한, 인텔 개방형 HPC 및 AI 포트폴리오 공개

권경욱 기자 0   0

인텔은 국제 슈퍼컴퓨팅 컨퍼런스(ISC)에서 향상된 고성능컴퓨팅(HPC) 및 인공지능(AI) 워크로드 성능은 물론 oneAPI 프로그래밍 모델로 통일된 미래 HPC 및 AI 제품 포트폴리오, 그리고 과학과 사회를 위한 생성형AI 모델 개발에 오로라 슈퍼컴퓨터를 활용하기 위한 국제적인 협력을 현지시간 22일 발표했다. 


제프 맥베이(Jeff McVeigh) 인텔 슈퍼컴퓨팅 그룹 총괄 및 부사장은 “인텔은 고객 및 최종 사용자가 획기적인 발견을 더욱 빨리 할 수 있도록 HPC 및 AI 커뮤니티에 다양한 제품과 서비스를 제공하기 위해 최선을 다하고 있다”며 “인텔® 제온® CPU 맥스 시리즈, 인텔® 데이터센터 GPU 맥스 시리즈, 4세대 인텔® 제온® 스케일러블 프로세서 및 하바나® 가우디®2를 아우르는 인텔의 제품 포트폴리오는 다양한 워크로드에서 경쟁사 제품 대비 뛰어난 성능을 발휘하며, 에너지 및 총소유비용(TCO) 이점을 제공하고, 모든 사람들이 AI를 사용할 수 있도록 지원하며, 더 넓은 선택지와 개방성, 유연성을 제공한다”고 말했다.



thumb-c57c266fa3e707e5d433ec2425add241_mhP4p3xA_24722ff332c000d5264594af0eee08d9dd84ab49_600x338.jpg


규모에 맞는 하드웨어 성능


이날 멕베이 부사장은 특별 발표를 통해 인텔이 모든 하드웨어에 걸쳐 보유하고 있는 경쟁력과 강력한 모멘텀을 강조했다.


ISV인 앤시스(Ansys)에 따르면, AI 가속 HPC 애플리케이션에서 GPU 맥스 시리즈가 H100 제품 대비 50% 빠른 속도를 기록하는 등, 인텔® 데이터센터 GPU 맥스 시리즈는 다양한 워크로드에서 엔비디아 H100 PCIe 제품 대비 30% 향상된 성능을 제공한다고 밝혔다.


고대역폭 메모리를 탑재한 유일한 x86 프로세서인 제온 맥스 시리즈 CPU는 HPCG(High Performance Conjugate Gradients) 벤치마크에서 AMD 제노아 프로세서 대비 더 적은 전력으로 65% 향상된 성능을 제공한다. 높은 메모리 대역폭은 HPC 고객이 가장 원하는 기능 중 하나다.


HPC에서 가장 널리 사용되는 4세대 인텔 제온 스케일러블 프로세서는 AMD 밀란(AMD Milan) 제품 대비 평균 50% 빠른 속도를 제공하며, 에너지 기업 BP의 최신 4세대 제온 HPC 클러스터는 전 세대 프로세서 대비 8배 높은 성능 및 향상된 에너지 효율성을 제공한다.


가우디2(Gaudi2) 딥 러닝 가속기는 딥 러닝 학습 및 추론에서 엔비디아 A100 대비 최대 2.4배 빠른 성능을 제공한다. 


4세대 인텔 제온 스케일러블 프로세서 및 맥스 시리즈 프로세서를 도입한 신규 고객은 다음과 같다.


일본 교토대학교(Kyoto University)는 로렐3(Laurel 3) 및 시나몬3(Cinnamon 3)에 4세대 인텔 제온 스케일러블 프로세서, 캠퍼3(Camphor 3)에 인텔 제온 맥스 시리즈 프로세서를 탑재했다.


이탈리아 시네카(Cineca)는 4세대 인텔 제온 프로세서가 탑재된 레오나르도(Leonardo)를 구축했다.


미국 로체스터 대학교(University of Rochester) 레이저 에너지학 연구소는 4세대 인텔 제온 프로세서를 탑재한 클러스터를 구축했다.


아르헨티나 국립 기상청(Servicio Meteorológico Nacional de Argentina)는 맥스 시리즈 CPU와 GPU가 모두 탑재된 시스템을 구축할 예정이다.


더불어, 영국 케임브리지 대학교(Cambridge University)의 케임브리지 오픈 제타스케일 연구소(Cambridge Open Zettascale Lab)은 영국 최초의 맥스 GPU 테스트베드를 구축했으며, 분자 역학 및 생물학적 이미지 응용 분야에서 긍정적인 초기 결과를 보이고 있다. 더불어, 일본 이화학연구소(RIKEN)은 인텔과 AI, HPC, 양자컴퓨팅 등 첨단 컴퓨팅 기술 분야의 공동 연구 개발 가속화를 위한 양해각서(MOU)를 체결했다. 본 양해각서의 일환으로 이화학연구소는 인텔 파운드리 서비스와 협력해 신규 솔루션 프로토타입을 제작할 예정이다. 


모든 워크로드를 위한 경쟁력 높은 프로세서 


역동적이고 새롭게 부상하는 HPC 및 AI 워크로드를 위해서 전체적인 하드웨어 및 소프트웨어 포트폴리오가 필요하다. 맥베이 부사장은 HPC 커뮤니티에 다양한 선택지와 솔루션을 제공해 AI의 대중화를 지원하는 인텔 데이터센터 오퍼링에 대해 소개했다. 


맥베이 부사장은 높은 메모리 대역폭 요구를 충족하기 위한 차세대 CPU를 공개했다. 인텔은 그래나이트 래피즈를 위한 신규 유형 DIMM인 멀티플렉서 결합 랭크(MCR) 개발을 위해 생태계를 주도했다. MCR은 DDR5 기준 초당 8,800메가전송(megatransfer) 속도와 2소켓 시스템에서 초당 1.5테라바이트(TB/s) 이상의 메모리 대역폭 용량을 기록했다. 이러한 메모리 대역폭 향상으로 빠르게 증가하는 최신 CPU 코어 수를 충족하고 효율성과 유연성을 제공할 수 있다. 


인텔의 차세대 맥스 시리즈 GPU(팔콘 쇼어)는 고객이 빠르게 변화하는 미래의 새로운 워크로드를 위해 시스템 수준의 CPU와 외장 GPU를 유연하게 조합할 수 있도록 지원할 예정이다. 팔콘 쇼어는 모듈식 타일 기반 아키텍처를 기반으로 하며 다음과 같은 기능을 제공한다. 


인텔의 차세대 맥스 시리즈 GPU(팔콘 쇼어)는 고객이 빠르게 변화하는 미래의 새로운 워크로드를 위해 시스템 수준의 CPU와 외장 GPU를 유연하게 조합할 수 있도록 지원할 예정이다. 팔콘 쇼어는 모듈식 타일 기반 아키텍처를 기반으로 하며 다음과 같은 기능을 제공한다:


FP64에서 BF16, FP8에 이르는 HPC 및 AI 데이터 유형 지원


최대 9.8TB/s의 총 대역폭과 대폭 향상된 고속 I/O로 최대 288GB의 HBM3 메모리 사용 가능


· CXL 프로그래밍 모델 강화


· oneAPI를 통해 통합된 GPU 프로그래밍 인터페이스 제공 


과학용 생성형 AI 


아르곤 국립연구소는 인텔 및 HPE와 협력해 과학 연구 공동체를 위한 일련의 생성형AI 모델 제작 계획을 공개했다. 


릭 스티븐스(Rick Stevens) 아르곤 국립연구소 부연구소장은 “본 프로젝트는 오로라 슈퍼컴퓨터의 잠재력을 최대한 활용, 美 에너지부 연구소 및 기타 연구소와 협력해 다운스트림 과학(downstream science)에 사용할 수 있는 리소스를 생산하는 것을 목표로 한다”고 말했다. 


과학용 생성형 AI 모델은 일반 문서, 코드, 과학 문서를 비롯해, 생물학, 화학, 재료 과학, 물리학, 의학 및 기타 출처의 구조화된 과학 데이터를 학습한다. 


1조 개에 달하는 매개변수가 포함된 결과 모델은 분자 및 물질 설계부터 수백만 개 출처에 걸친 지식을 학습하는 등 다양한 과학적 응용 분야에 사용되어 시스템 생물학, 고분자 화학 및 에너지 재료, 기후 과학, 우주론 등 다양한 분야에서 새롭고 흥미로운 실험을 제안할 예정이다. 더불어, 본 모델은 암 및 기타 질병과 관련된 생물학적 과정을 더욱 빨리 규명하도록 지원하며, 약물 설계를 위한 목표 제시에도 사용될 것이다. 


아르곤 국립연구소는 인텔, HPE, 美 에너지부 연구소, 미국 및 해외 대학교, 비영리 단체, 이화학연구소(RIKEN) 등 국제 파트너와 함께 프로젝트 발전을 위한 글로벌 협력을 주도하고 있다. 


또한, 인텔과 아르곤 국립연구소는 오로라 슈퍼컴퓨터의 설치 진행 상황, 시스템 사양 및 초기 성능 결과를 공개했다.


· 인텔은 오로라 슈퍼컴퓨터를 위한 1만개 이상의 블레이드 서버를 배송 완료했다.


HPE 크레이(Cray) EX 슈퍼컴퓨터를 사용해 구축한 오로라 슈퍼컴퓨터 시스템에는 63,744개의 GPU, 21,248개의 CPU, 1,024개의 DAOS 스토리지 노드가 탑재되어 있다. 더불어, HPE 슬링샷 고성능 이더넷 네트워크를 활용한다.


초기 결과는 실제 과학 및 엔지니어링 워크로드에서 선도적인 성능을 제시하며, AMD MI250 GPU 대비 최대 2배 높은 성능, QMCPACK 양자 기계 애플리케이션에서 H100 대비 20% 높은 성능, 최대 수백 노드에 이르는 선형에 가까운 확장성을 제공한다.


올해 출시 예정인 오로라 슈퍼컴퓨터는 2엑사플롭스 이상의 최고 배정밀도 컴퓨팅 성능을 제공할 것으로 예상된다.



thumb-c57c266fa3e707e5d433ec2425add241_obFdRKMO_37377689658b51cf5e553dd1d208bb3fbe45827d_600x338.jpg


oneAPI를 통한 생산적인 개방형 가속 컴퓨팅 


전세계적으로 전체 개발자의 약 90%가 인텔에서 개발 또는 최적화한 소프트웨어의 혜택을 받거나 사용하고 있다.6 oneAPI 프로그래밍 모델이 2020년에 공개된 이후, 개발자들은 여러 하드웨어 공급업체의 다양한 CPU, GPU, FPGA 및 AI 실리콘에서 oneAPI를 시연하여 단일 공급업체 가속 프로그래밍 모델의 문제를 해결하고 있다. 


최신 인텔 oneAPI 툴은 OpenMP GPU 오프로드를 통해 HPC 애플리케이션의 속도를 향상시키고, OpenMP 및 포트란에 대한 지원을 확장하며, 텐서플로우 및 파이토치 등 최적화된 프레임워크와 AI 툴을 통해 AI 및 딥러닝을 가속화하여 성능을 대폭 향상시킬 수 있게 한다.


oneAPI는 oneAPI의 SYCL을 구현, 코드플레이에서 개발한 엔비디아 및 AMD 프로세서용 oneAPI 플러그인 및 CUDA 코드를 SYCL 및 C++로 자동으로 이관하는 인텔 DPC++ 호환 도구(오픈 소스 SYCLomatic 기반)를 통해 다중 아키텍처 프로그래밍을 개발자들에게 더욱 쉬운 환경을 조성한다. 


이러한 작업에서 코드의 90-95%가 자동으로 이관된다.7 SYCL 코드는 엔비디아 및 AMD 기반 시스템 언어에서 실행되는 동일한 코드와 비슷한 성능을 보인다. 데이터에 따르면 맥스 시리즈 GPU에서 실행되는 DPEcho 천체 물리학 애플리케이션의 SYCL 코드는 엔비디아 H100에서 실행되는 동일한 CUDA 코드보다 48% 더 뛰어난 성능을 발휘한다. 


더불어, 생태계 내에서 SYCL 도입이 확산되고 있다. 아토스(Atos)의 사업부서인 에비덴(Eviden)은 자사 성능 프로그래밍 센터 오브 엑셀런스(CEPP)를 기반으로 하는 HPC/AI 코드 현대화 서비스인 CEPP one+를 인텔과 함께 발표했다. CEPP one+는 공개 표준을 통해 하드웨어 선택의 자유를 제공하는 동시에 커뮤니티가 이기종 컴퓨팅 환경에 대비할 수 있도록 SYCL 및 OpenMP 채택에 중점을 둘 것이다.

 

ⓒ 블루프레임(https://www.blueframe.co.kr) 무단전재 및 재배포금지

, , , , , , , , , , , , , ,

0 Comments
많이 본 뉴스
인기기사