인텔 가우디 가속기, FP8 소프트웨어로 GPT-3에서 두 배 높은 성능 제공

홈 > 기획·특집 > 테크닉 > IT
테크닉

IT | 인텔 가우디 가속기, FP8 소프트웨어로 GPT-3에서 두 배 높은 성능 제공

권경욱 기자 0   0

인텔은 오늘 ML커먼스가 인텔 가우디2(Intel® Gaudi®2) 가속기 및 인텔 어드밴스드 매트릭스 익스텐션(Intel® AMX)이 탑재된 4세대 인텔 제온 스케일러블 프로세서(4th Gen Intel® Xeon® Scalable processors)의 AI 모델 학습에 대한 업계 표준 MLPerf 트레이닝(MLPerf Training) v3.1 벤치마크 측정 결과를 발표했다고 밝혔다.  


인텔 가우디2는 v3.1 학습 GPT-3 벤치마크에서 FP8 데이터 유형을 적용해 두 배 높은 성능을 보여줬다. 인텔은 해당 벤치마크 제출을 통해 경쟁력 있는 AI 솔루션으로 AI를 어디서나 제공하겠다는 약속을 더욱 공고히 했다. 


인텔 데이터센터 및 AI 그룹 총괄 산드라 리베라(Sandra Rivera) 수석부사장은 “인텔은 AI 포트폴리오를 지속적으로 혁신하고 있으며, 연이은 MLPerf 성능 결과를 통해 ML커먼스 AI 벤치마크의 기준을 높이고 있다. 인텔 가우디 및 4세대 제온 프로세서는 고객에게 뚜렷한 가격 대비 성능 이점을 제공하며 즉시 사용 가능하다. 인텔의 다양한 AI 하드웨어 및 소프트웨어 구성은 고객에게 AI 워크로드에 맞는 포괄적인 솔루션과 선택지를 제공한다”고 말했다. 


최신 ML커먼스의 MLPerf 결과는 지난 6월 발표한 MLPerf 트레이닝 결과보다 강력한 인텔의 AI 성능을 기반으로 한다. 인텔 제온 프로세서는 MLPerf 결과를 제출하는 유일한 CPU이며, 인텔 가우디2는 테스트 결과 기준으로 세 가지 가속기 솔루션 중 하나로, 이 중 두 가지 솔루션만 현재 구매 가능하다.



thumb-c57c266fa3e707e5d433ec2425add241_lwDpEIVL_ccd9bb0f83d0882f1006dbfce484300e3e55600f_600x299.jpg


인텔 가우디2 및 4세대 제온 프로세서는 다양한 하드웨어 구성으로 우수한 AI 학습 성능을 입증해 점점 더 다양해지는 고객의 AI 컴퓨팅 요구 사항을 해결할 수 있다. 


인텔 가우디2 결과: 가우디2는 AI 컴퓨팅 요구사항에 있어 엔비디아의 H100을 대체할 수 있는 유일한 대안으로 가격 대비 뛰어난 성능을 제공한다. 가우디2에 대한 MLPerf 결과는 AI 가속기의 학습 성능이 향상되었음을 입증한다. 


· 가우디2는 FP8 데이터 유형 구현으로 v3.1 학습 GPT-3 벤치마크에서 두 배의 성능 향상을 보였다. 6월 MLPerf 벤치마크 대비 학습 시간이 절반 이상으로 단축됐으며, 384개의 인텔 가우디2 가속기를 사용해 153.38분 만에 학습을 완료하기도 했다. 가우디2 가속기는 E5M2 및 E4M3 형식 모두에서 FP8을 지원하며 필요 시 지연 스케일링 옵션도 제공한다.


· 인텔 가우디2는 BF16을 사용해 20.2분 만에 64개의 가속기로 스테이블 디퓨전(Stable Diffusion) 멀티모달 모델에 대한 학습을 시연했다. 향후 MLPerf 트레이닝 벤치마크에서는 FP8 데이터 유형에 대한 스테이블 디퓨전 성능이 제출될 예정이다.


· 8개의 인텔 가우디2 가속기에서 BERT와 ResNet-50에 대한 벤치마크 결과는 각각 BF16을 사용하여 13.27분과 15.92분을 나타냈다.



thumb-c57c266fa3e707e5d433ec2425add241_TsqiL3cl_4496c24af8fc0d29a50cac9d502b8d3c6c564542_600x295.jpg


4세대 제온 결과: 인텔은 MLPerf 결과를 제출한 유일한 CPU 벤더다. 4세대 제온에 대한 MLPerf 결과는 제온의 강력한 성능을 강조한다. 


· 인텔은 RESNet50, RetinaNet, BERT 및 DLRM dcnv2에 대한 결과를 제출


· 4세대 인텔 제온 스케일러블 프로세서의 ResNet50, RetinaNet 및 BERT에 대한 결과는 2023년 6월 MLPerf 벤치마크에 제출된 강력한 기본 성능 결과와 유사


· DLRM dcnv2는 6월에 제출된 새로운 CPU 모델, 4개의 노드만 사용해 227분의 학습 시간을 기록 


4세대 제온 프로세서의 성능을 통해, 많은 엔터프라이즈 기업이 범용 CPU를 사용하여 기존 엔터프라이즈 IT 인프라에서 중소 규모의 딥 러닝 모델을 경제적이고 지속적으로 학습할 수 있으며, 특히 학습이 간헐적인 워크로드인 사용 사례에 적합하다. 


인텔은 소프트웨어 업데이트 및 최적화를 통해 향후 MLPerf 벤치마크에서 AI 성능 결과가 더욱 향상될 것으로 예상하고 있다. 인텔의 AI 제품은 고객에게 성능, 효율성 및 유용성을 요구하는 동적인 요구 사항을 충족하는 AI 솔루션에 대한 더 많은 선택지를 제공한다.

 

ⓒ 블루프레임(https://www.blueframe.co.kr) 무단전재 및 재배포금지

, , , , , , , , , , , , , , , ,

Facebook Twitter GooglePlus KakaoStory NaverBand Naver Tumblr Pinterest 신고
0 개의 댓글이 있습니다.
많이 본 뉴스
인기기사