차세대 AI 플랫폼 엔비디아 블랙웰, 새로운 인퍼런스MAX 벤치마크서 최고 성능·효율성 입증

IT | 차세대 AI 플랫폼 엔비디아 블랙웰, 새로운 인퍼런스MAX 벤치마크서 최고 성능·효율성 입증

권경욱 기자 IT 0 0 10.13 14:50

엔비디아(www.nvidia.co.kr)가 차세대 AI 플랫폼 엔비디아 블랙웰(NVIDIA Blackwell)이 새롭게 발표된 인퍼런스MAX(InferenceMAX) v1 벤치마크에서 최고 성능을 기록했다고 밝혔다.

이번 결과는 블랙웰이 AI 추론 분야에서 높은 처리량과 효율성, 비용 경쟁력을 동시에 입증한 성과로, 풀스택 하드웨어·소프트웨어 공동 설계를 기반으로 AI 데이터센터의 생산성과 투자수익률(ROI)을 크게 향상시켰음을 보여준다.

AI가 단발성 응답을 넘어 복잡한 추론으로 진화함에 따라, 추론에 대한 수요와 그 기반이 되는 경제성이 폭발적으로 증가하고 있다.

새로운 독립형 인퍼런스MAX v1 벤치마크는 처음으로 실제 시나리오 전반에 걸친 총 컴퓨팅 비용을 측정했다. 그 결과, 엔비디아 블랙웰 플랫폼이 압도적인 성능과 AI 팩토리를 위한 최고의 종합 효율성을 제공하며 시장을 석권했다.

5백만 달러 규모의 GB200 NVL72 투자로 7천5백만 달러의 토큰 수익 창출 가능

엔비디아 GB200 NVL72 시스템에 5백만 달러를 투자하면 7천5백만 달러의 토큰 수익을 창출할 수 있다. 이는 15배의 ROI로, 추론의 새로운 경제학이라고 할 수 있다.

엔비디아의 하이퍼스케일과 고성능 컴퓨팅 부문 부사장 이안 벅(Ian Buck)은 “추론은 AI가 매일 가치를 창출하는 영역이다. 이번 결과는 엔비디아의 풀스택 접근 방식이 고객에게 대규모 AI 배포에 필요한 성능과 효율성을 제공함을 보여준다”고 말했다.

인퍼런스MAX v1 등장

인퍼런스MAX v1는 세미애널리시스(SemiAnalysis)가 발표한 새로운 벤치마크로, 블랙웰의 추론 성능 리더십을 다시 한번 입증하는 최신 사례다. 이 벤치마크는 인기 모델들을 주요 플랫폼에서 실행하고, 다양한 사용 사례에 대한 성능을 측정하며, 누구나 검증 가능한 결과를 공개한다.

이러한 벤치마크가 중요한 이유는 현대 AI는 단순한 속도만의 문제가 아닌 효율성과 대규모 운영 경제성이 핵심이기 때문이다. AI 모델이 단발성 응답에서 다단계 추론과 도구 활용 방식으로 전환됨에 따라, 쿼리당 생성되는 토큰 수가 크게 늘어나고, 이에 따라 연산 요구량이 급격히 증가하고 있다.

엔비디아의 오픈소스 협업은 오픈AI(OpenAI)(gpt-oss 120B), 메타(Meta)(라마 3 70B)(Llama 3 70B), 딥시크 AI(DeepSeek AI)(딥시크 R1)와 함께 진행되고 있다. 이를 통해 해당 커뮤니티 기반 모델들이 최첨단 추론 능력과 효율성을 끌어올리고 있음을 보여준다.

엔비디아는 이들 선도적인 모델 개발사와 오픈소스 커뮤니티와 협력해, 최신 모델들이 세계 최대 규모의 AI 추론 인프라에서 최적의 성능을 발휘할 수 있도록 보장한다. 이러한 노력은 공유된 혁신이 모두의 발전을 가속화하는 개방형 생태계 구축에 대한 의지를 반영하고 있다.

또한, 플래시인퍼(FlashInfer), SGLang, vLLM 커뮤니티와의 긴밀한 협업을 통해, 이러한 모델들이 대규모 환경에서 원활히 작동하도록 지원하는 커널과 런타임 개선이 공동으로 개발되고 있다.

소프트웨어 최적화로 지속적인 성능 향상 실현

엔비디아는 하드웨어, 소프트웨어 공동 설계 최적화를 통해 지속적으로 성능을 개선하고 있다. 엔비디아 텐서RT(TensorRT) LLM 라이브러리를 탑재한 엔비디아 DGX 블랙웰 B200 시스템에서의 초기 gpt-oss-120b 성능은 이미 업계 최고 수준이었다. 그러나, 엔비디아 팀과 커뮤니티는 오픈소스 거대 언어 모델(large language model, LLM)을 위해 텐서RT LLM을 대폭 최적화했다.

엔비디아 블랙웰 B200 NVL8, GPU당 최대 6만 TPS 처리량 달성

텐서RT LLM v1.0 출시는 대규모 AI 모델의 속도와 반응성을 한 단계 더 끌어올린 핵심적인 돌파구다.

고급 병렬화 기술을 적용한 이 버전은 B200 시스템과 엔비디아 NV링크 스위치(NVLink Switch)의 1,800GB/s 양방향 대역폭을 활용해 gpt-oss-120b 모델의 성능을 획기적으로 향상시킨다.

또한 새로 공개된 gpt-oss-120b-Eagle3-v2 모델은 한 번에 여러 토큰을 예측하는 추측 디코딩(speculative decoding) 방식을 도입했다.

이 기법은 지연을 줄이고 더 빠른 결과를 제공해, 사용자당 100토큰 처리 속도(Tokens Per Second, TPS)로 처리량을 3배 향상시켰다. 이로써 GPU당 처리 속도도 토큰 6,000개에서 30,000개로 대폭 향상됐다.

라마 3.3 70B와 같은 밀집형(dense) AI 모델은 많은 파라미터 수와 추론 시 모든 파라미터가 동시에 활용된다는 점 때문에 상당한 컴퓨팅 자원이 필요하다. 이 영역에서 엔비디아 블랙웰 B200은 인퍼런스MAX v1 벤치마크에서 새로운 성능 표준을 제시했다.

엔비디아 블랙웰, GPU당 1만 TPS 처리로 호퍼 대비 4배 성능 향상

블랙웰은 GPU당 10,000 TPS 이상, 사용자당 상호작용성 기준으로 50 TPS를 제공하며, 이는 엔비디아 H200 GPU 대비 GPU 당 처리량이 4배 더 높다.

성능 효율성이 창출하는 가치

와트당 토큰 수, 백만 토큰당 비용, 사용자당 TPS와 같은 지표는 처리량만큼이나 중요하다. 실제로 전력이 제한된 AI 팩토리의 경우, 블랙웰은 이전 세대 대비 메가와트당 10배 높은 처리량을 제공하며, 이는 더 높은 토큰 수익으로 이어진다.

전력이 제한된 AI 팩토리의 매출을 10배 향상시키는 블랙웰

토큰당 비용은 AI 모델 효율성을 평가하는 핵심 지표로, 운영 비용에 직접적인 영향을 미친다. 엔비디아 블랙웰 아키텍처는 이전 세대 대비 백만 토큰당 비용을 15배까지 낮춰 상당한 비용 절감 효과를 거두며, AI 배포와 혁신을 더욱 확대했다.

토큰 비용 15배 절감으로 AI 배포 확대 추진

다차원적 성능

인퍼런스MAX는 데이터센터 처리량과 반응성 등 다양한 요소 간의 최적의 균형을 보여주는 곡선인 파레토 프론티어(Pareto frontier) 접근법을 사용해 성능을 매핑한다.

이는 단순한 차트가 아닌 엔비디아 블랙웰이 비용, 에너지 효율성, 처리량, 반응성 등 생산 우선순위를 어떻게 균형 있게 조정하는지 보여준다. 이러한 균형은 실제 워크로드에서 최고의 ROI를 보장한다.

단일 모드나 특정 시나리오에만 최적화된 시스템은 단독으로는 높은 성능을 보일 수도 있지만, 경제적 측면에서는 한계가 있다. 블랙웰의 풀스택 설계는 가장 중요한 생산 환경에서 효율성과 가치를 제공한다.

이 곡선이 어떻게 구축되는지, 총소유비용(total cost of ownership, TCO)과 서비스 수준 협약(service-level agreement, SLA) 계획에 왜 중요한지는 엔비디아 기술 블로그에서 알아볼 수 있다.

가능하게 하는 요소들

블랙웰의 리더십은 극단적인 하드웨어, 소프트웨어 공동 설계에서 비롯된다. 이는 속도, 효율, 확장성을 위해 설계된 풀스택 아키텍처다.

· 블랙웰 아키텍처의 주요 특징

§ NVFP4 저정밀도 포맷: 정확도 손실 없이 효율성 제공

§ 5세대 엔비디아 NV링크: 72개의 블랙웰 GPU를 하나의 거대한 GPU처럼 연결

§ NV링크 스위치: 고급 텐서, 전문가, 데이터 병렬 어텐션 알고리즘을 통해 고병렬 처리 구현

· 연간 하드웨어 케이던스와 지속적인 소프트웨어 최적화로 엔비디아는 소프트웨어만 출시했던 때보다 블랙웰 성능을 두 배 이상 향상시켰다.

· 최고 성능을 위해 최적화된 엔비디아 텐서RT-LLM, 엔비디아 다이나모(Dynamo), SGLang, vLLM 오픈소스 추론 프레임워크

· 수억 개의 GPU가 설치 기반으로 700만 명의 쿠다(CUDA) 개발자와 함께 1,000개 이상의 오픈소스 프로젝트에 기여하는 방대한 생태계

더 큰 그림

AI는 파일럿 단계를 넘어, 실시간으로 데이터를 토큰과 의사결정으로 전환하는 인텔리전스 제조 인프라인 AI 팩토리로 진화하고 있다.

공개되고 자주 업데이트되는 벤치마크는 팀이 정보에 기반한 플랫폼을 선택하고, 토큰당 비용, 지연 시간 SLA, 워크로드 변화에 따른 활용도 등을 조정할 수 있도록 지원한다.

엔비디아의 띵크 스마트(Think SMART) 프레임워크는 이러한 변화 속에서 기업이 방향을 잡을 수 있도록 지원한다. 또한, 엔비디아의 풀스택 추론 플랫폼이 실제 ROI를 창출하고, 성능을 수익으로 전환하는 기반이 된다.

엔비디아, NVIDIA, 차세대, AI 플랫폼, 엔비디아 블랙웰, NVIDIA Blackwell, 새로운, 인퍼런스MAX, 벤치마크서, 최고, 성능, 효율성, 입증