딥 러닝 학습용 프로세서, 인텔 자회사 하바나 랩스 가우디2 출시

서버 | 딥 러닝 학습용 프로세서, 인텔 자회사 하바나 랩스 가우디2 출시

권경욱 기자 서버 0 0 2022.05.12 12:20

인텔의 자회사인 하바나 랩스(Habana Labs)는 미 현지시간 10일부터 개최한 인텔 비전(Intel Vision) 행사에서 인공지능 학습용 2세대 가우디 프로세서인 가우디2 프로세서와 추론용 고야(Goya™) 프로세서의 후속작인 그레코(Greco) 프로세서를 공개했다.

가우디2 프로세서와 그레코 프로세서는 인공지능 딥러닝 애플리케이션을 위해 특별히 개발됐으며, 7나노 공정 기반으로 제작됐다.

아울러, 하바나 랩스의 고효율 아키텍처를 기반으로 구축, 고객에게 데이터 센터 컴퓨터 비전 및 자연어 애플리케이션을 위한 고성능 모델 학습 및 추론 기능을 제공한다.

이날 하바나 랩스는 가우디2 프로세서로 컴퓨터 비전인 레스넷-50(ResNet-50)(v1.1)과 자연어 처리용 기계학습 기술(BERT) 1단계 및 2단계 워크로드 처리량 성능을 시연했다. 가우디2 프로세서는 엔비디아 A100 80GB 프로세서 대비 2배 높은 성능을 기록했다.

딥러닝 트레이닝을 위해 특별 설계된 가우디2 프로세서

데이터 센터 고객의 경우, 데이터 세트와 AI 워크로드의 규모가 커지고 복잡해지면서 딥 러닝 모델 학습에 점점 더 많은 시간과 비용이 투입된다. 가우디2는 클라우드 및 온프레미스 고객에게 향상된 딥러닝 성능과 효율성 및 선택권을 제공하도록 설계되었다.

고객은 모델의 정확성과 최근성을 높이기 위해 좀 더 잦은 학습을 요구한다. IDC가 지난 2020년 발표한 조사결과에 따르면 머신 러닝(machine learning, ML) 실무자 중 74%가 5~10회, 50% 이상이 매주 또는 그 이상 모델 학습을 반복하며, 26%가 매일 또는 매시간 모델을 재구성한다. 더불어, 응답자 중 56%는 AI가 제공할 수 있는 통찰력, 혁신 및 향상된 최종 고객 경험을 활용하는 데 있어 학습 비용이 가장 큰 걸림돌이라고 답했다. 가우디 플랫폼 솔루션인 1세대 가우디와 가우디2는 증가하는 수요를 해결하기 위해 탄생했다.

딥러닝을 위한 가우디2 프로세서, 새로운 단계로 성장

하바나 가우디2 프로세서는 기존 고효율 1세대 가우디와 동일한 아키텍처를 기반으로 설계되어 인공지능 학습 성능을 크게 향상시켰다. 고객은 현존하는 클라우드 내 GPU 기반 솔루션 및 아마존 EC2 DL1 인스턴스는 물론 슈퍼마이크로 가우디 훈련 온프레미스 서버 대비 40% 높은 가격 대비 성능을 경험할 수 있다.

1세대 가우디 대비 가우디2 프로세서의 주요 개선 사항은 다음과 같다.

 16나노미터에서 7나노미터로 향상된 공정 사용

 매트릭스 곱셈 엔진(MME) 및 텐서 프로세서 코어 컴퓨팅 엔진에 FP8을 포함한 새로운 데이터 유형 도입

 텐서 프로세서 코어 8개에서 24개로 증가

 호스트 하위 시스템을 오프로드하기 위한 온칩 미디어 처리 엔진 통합

 32GB에서 96GB HBM2E로 3배 증가한 2.45TB/초 대역폭에서의 인패키지 메모리 용량

 48MB로 2배 증가한 이중 온보드 SRAM

 통합된 RoCE2(RDMA over Converged Ethernet)가 10개의 NIC에서 24개로 증가해 산업 표준 네트워킹에서 고효율 스케일업 및 스케일아웃 지원 100% AI용으로 설계되어 200%의 성능을 제공하는 가우디2 프로세서 인공지능 학습 시간 및 운영 효율성을 높이기 위한 고객은 딥러닝 성능과 가치를 평가할 수 있는 격이 다른 학습 메트릭스를 물색하고 있다. 하바나 랩스는 인텔 비전 행사에서 가우디2 프로세서 및 기타 주요 솔루션과 성능을 비교했다. 다음 차트에는 컴퓨터 비전 및 자연어 처리 모델에 대한 타사 솔루션과 가우디2 프로세서 간 학습 성능을 포함한다.

가우디2 프로세서는 프레임워크와 통합된 전체 소프트웨어를 포함해 주요 워크로드에 대해 동일한 공정 노드 기반 A100 GPU 대비 약 2배 높은 학습 성능을 제공한다. 아래 결과를 통해, 가우디2 목적에 맞게 설계된 딥 러닝 가속 아키텍처가 근본적으로 더 효율적이라는 것을 확인할 수 있다.

워크로드 및 구성은 intel.com/performanceindex의 Vision 섹션 참조. 결과는 다를 수 있음.

네트워크 용량, 유연성 및 효율성

24개의 100기가비트(Gigabit) RoCE 포트를 모든 가우디2 프로세서에 통합해 학습 대역폭을 크게 증가할 수 있다.

 스케일업: 모든 가우디2 프로세서에 탑재된 21개 포트는 8-카드 HLS-가우디2 서버의 다른 7개 프로세서에 연결하기 위한 전용 포트이며, 올투올(All-to-All) 논블로킹(non-blocking)으로 구성

 스케일아웃: 모든 프로세서의 포트 중 3개는 스케일 아웃 전용으로 8카드 가우디 서버에서 2.4 테라비트의 네트워킹 처리량을 제공

 OCP OAM 준수: 고객의 시스템 설계를 단순화하기 위해 하바나는 OCP 사양을 준수하는 범용 베이스보드(UBB)를 제품으로 제공

 사용 편의성 및 유연성: 고객은 업계 표준 RoCE on 칩을 통합해 1개에서 수천 개의 가우디2에 이르는 딥 러닝 클러스터 요구사항에 맞게 가우디2 시스템을 쉽게 확장 및 구성 가능

 시스템 구축 선택: 가우디2는 널리 사용되는 업계 표준 이더넷 연결에 대한 시스템 구현으로, 고객이 다양한 이더넷 스위칭 및 관련 네트워킹 장비 중에서 선택할 수 있도록 해 비용 절감

 통합 효율성: 네트워크 인터페이스 컨트롤러(NIC) 포트의 온칩 통합은 전체 구성 요소 비용 대폭 절감

HLS-가우디2 서버

8개의 가우디2 카드 외에도 HLS-가우디2 서버는 듀얼 소켓 인텔 제온® 스케일러블 프로세서 서브시스템을 갖추고 있다. 하바나는 가우디2에 대한 고객 평가를 위해 이 서버를 제공하는 동시에 시스템 제조사(OEM)와 협력하여 최종 고객을 위한 시장 솔루션을 제공한다.

현재까지 1,000대의 HLS-가우디2가 이스라엘의 하바나 가우디2 데이터 센터에 배치되어 있다. HLS-가우디2는 가우디2 소프트웨어 최적화를 위한 연구 및 개발을 지원하며, 향후 공개될 가우디3 프로세서 개발을 지원하고 있다.

하바나 가우디 8노드 클러스터

하바나 가우디2솔루션

하바나는 슈퍼마이크로와 협력해 슈퍼마이크로 가우디2 학습 서버(Supermicro Gaudi®2 Training Server)를 2022년 3분기에 출시할 예정이다. 또한 데이터 다이렉트 네트워크®(DDN®)과 협력해 DDN AI400X2 스토리지 솔루션 페어링을 통해 증강 AI 스토리지를 갖춘 슈퍼마이크로 서버를 특징으로 하는 턴키 서버를 제공하고 있다.

간소화된 모델 구축 및 마이그레이션

하바나 시냅스AI®(SynapseAI®) 소프트웨어 스위트는 딥러닝 작업 부하에 최적화되었으며, 더 쉽게 모델을 구축하고 마이그레이션할 수 있도록 설계됐다. 이를 통해 고객이 기존 GPU 기반 모델에서 가우디2로 워크로드와 시스템을 전환할 수 있도록 지원하며, 소프트웨어 개발을 위해 진행한 투자 역량을 보존할 수 있도록 돕는다. 개발자들이 있는 곳으로 찾아가는 시냅스AI는 텐서플로우(TensorFlow)와 파이토치(PyTorch) 프레임워크를 통합하고 30개 이상의 유명 컴퓨터 비전 및 자연어 참조 모델을 제공한다. 개발자는 하바나 개발자 웹사이트에서 문서와 도구, 사용법 컨텐츠 및 커뮤니티 지원을 받을 수 있으며, 하바나 깃허브(Habana GitHub)에서 참조 모델과 모델 로드맵을 활용할 수 있다.

인텔, intel, 자회사, 하바나 랩스, Habana Labs, 인텔 비전 2022, Intel Vision 2022, 인공지능, AI, 학습용, 2세대, 가우디 프로세서, 가우디2, 프로세서, 추론용, 고야, Goya, 후속작, 그레코, Greco, 공개

﻿딥 러닝 학습용 프로세서, 인텔 자회사 하바나 랩스 가우디2 출시

서버 | ﻿딥 러닝 학습용 프로세서, 인텔 자회사 하바나 랩스 가우디2 출시

딥 러닝 학습용 프로세서, 인텔 자회사 하바나 랩스 가우디2 출시

서버 | 딥 러닝 학습용 프로세서, 인텔 자회사 하바나 랩스 가우디2 출시