에이전틱 AI에 필요한 랙 스케일 CPU 성능, AMD 에픽으로 구현

서버 | 에이전틱 AI에 필요한 랙 스케일 CPU 성능, AMD 에픽으로 구현

권경욱 기자 서버 0 0 06.10 16:14

에이전틱 AI는 인프라의 형태를 변화시키고 있다. 기업들이 개별적인 AI 실험 단계에서 실제 운영 환경의 에이전틱 시스템으로 전환함에 따라, 이를 뒷받침하는 CPU 인프라의 중요성이 더욱 커지고 있다.

오케스트레이션 서비스, 데이터베이스, 웹 프런트엔드, 캐시, 미들웨어, API 및 컨트롤 플레인 서비스는 모두 실제 랙의 전력 및 냉각 한계 내에서 효율적으로 확장되어야 한다. 고객은 벤치마크 결과만을 기준으로 인프라를 구축하지 않는다. 실제 데이터센터에서는 전력, 냉각, 설치 공간, 소프트웨어 호환성, 운영 준비 상태 등 다양한 제약 조건을 고려한 랙 단위 인프라를 구축해야 한다.

이러한 관점에서 평가했을 때 AMD 에픽(EPYC) 프로세서는 랙 규모의 성능에서 명확한 리더십을 보여준다. 모델링된 100kW 랙 시나리오에서 AMD 에픽 9965는 엔비디아 베라(Vera) 기준 대비 약 2.37배의 랙 수준 처리량을 제공하며, 인텔 제온(Xeon) 6980P 대비로는 약 1.6배 높은 처리량을 제공한다. 차세대 AMD 에픽 "베니스(Venice)"는 엔비디아 베라와 대비하여 격차를 3.30배까지 확대할 것으로 예상된다. 더 중요한 점은, 고객이 이러한 인프라를 미래의 새로운 아키텍처로 기다릴 필요 없이 오늘날 표준 x86 플랫폼 위에서 즉시 구축할 수 있다는 점이다.

에이전틱 AI에는 풍부한 CPU 자원을 갖춘 인프라가 필요

AI 인프라 구축을 GPU 중심의 이야기로만 규정하기 쉽다. 하지만 실제 운영 환경의 에이전틱 시스템은 단순한 모델 추론(Inference)만으로 구성되지 않으며 방대하고 지속적으로 운영되는 서비스 환경이다. 각 AI 에이전트는 작업을 조율하는 오케스트레이션 로직, 트랜잭션 데이터베이스, 웹 및 API 엔드포인트, 키-값 저장소, 인메모리 캐시 및 미들웨어에 의존한다. 이러한 구성 요소들은 시스템 전반에서 작업을 조정하고 상태를 유지하며 요청을 처리하고 분배하는 역할을 한다. 이러한 서비스는 대부분 CPU 자원 의존도가 매우 높으며, 단일 모델의 크기보다 동시에 실행되는 에이전트 수에 따라 확장된다.

에이전틱 AI 배포가 실제 운영 환경으로 확대될수록 이를 지원하는 인프라의 규모도 함께 증가한다. 이러한 서비스를 호스팅하는 프로세서 플랫폼은 기업이 실제로 얼마나 많은 에이전트를 운영할 수 있는지, 그리고 어떤 비용 구조로 운영할 수 있는지를 결정하는 핵심 요소가 된다. 결국 이 인프라 계층에서는 가속기(GPU)의 최고 성능이 아닌, 범용 CPU의 처리 능력이 시스템 확장성의 상한선을 결정한다.

랙 수준(Rack-Level) 성능이 올바른 평가 지표인 이유

개별 부품의 벤치마크는 특정 칩의 성능을 설명할 수는 있지만, 고객이 실제로 구축할 수 있는 시스템의 역량을 보여주지는 못한다. 데이터센터는 랙 단위로 구축되며, 각 랙은 고정된 전력 및 냉각 예산, 제한된 설치 공간, 소프트웨어 호환성 요구사항, 그리고 운영 준비 상태 등의 제약을 받는다. 따라서 실제 성능을 결정하는 질문은 "하나의 소켓이 얼마나 빠른가"가 아닌, "100kW 랙 안에 얼마나 많은 유효 작업량을 담을 수 있는가"이다.

이번 분석은 바로 이러한 관점에서 수행되었다. 모든 구성은 2P(2-프로세서) 플랫폼 기반의 가상 100kW 랙 환경으로 정규화되었으며, 이를 통해 개별 프로세서의 최고 성능이 아닌 실제 배포 가능한 서비스 처리 용량을 비교했다. 더 높은 집적도는 곧 랙당 더 많은 서비스 처리 능력으로 이어지며, 이는 자본 효율성, 공간 활용도를 높이고 운영을 간소화하는 핵심 요소다.

AMD 에픽의 랙 수준 성능 리더십

범용 컴퓨팅, 서버측 자바(Java), 웹 서비스, 키-값 저장소, 인메모리 캐싱, 관계형 데이터베이스 등 이번 평가에 포함된 모든 워크로드에서 AMD 에픽은 랙 수준 성능 비교에서 뚜렷한 우위를 드러냈다. AMD 에픽 9965("튜린(Turin)", 192코어)는 엔비디아 베라(88코어 "올림푸스(Olympus)") 대비 정규화된 기하평균 성능 기준으로 2.37배 높은 성능을 기록했다. 인텔 제온 6980P("그래나이트 래피즈-AP(Granite Rapids-AP)", 128코어)는 NVIDIA 베라 대비 1.46배의 성능을 기록했다. 향후 AMD 에픽 "베니스"(256코어)가 출시되면 AMD의 격차는 3.3배까지 확대될 것으로 예상된다. 이러한 성능 향상은 특정 벤치마크 하나에 국한된 결과가 아닌, 전체 워크로드 전반에 걸쳐 일관되게 나타났다.

패턴은 일관된다. 고정된 전력 한도 내에서 코어 집적도가 높아질수록 전체 서비스 처리량도 함께 증가한다. 이는 에이전틱 AI 시스템을 둘러싼 트랜잭션 처리 계층, 웹 서비스 계층, 미들웨어 계층에서 랙당 더 높은 동시 처리 능력과 응답성을 제공한다는 의미이며, 이러한 특성은 결국 하나의 환경에서 얼마나 많은 AI 에이전트를 안정적으로 운영할 수 있는지를 결정한다.

당장 구축 가능한 랙 밀도, 미래의 약속이 아닌 현실

랙 밀도는 최근 데이터센터 업계의 핵심 지표로 자리 잡고 있으며, 이는 실제로 배포 가능한 인프라 가치를 보여주는 직접적인 척도다. 또한 AMD의 현재 출시된 솔루션이 차별화되는 영역이기도 하다. 델 파워엣지 IR7000 또는 이와 유사한 액체냉각 랙에 구축된 AMD EPYC "튜린" 시스템은 현재 랙당 2만7,000개 이상의 CPU 코어를 지원한다. 차세대 AMD EPYC "베니스"는 동일한 등급의 랙 환경에서 3만6,000개 이상의 코어로 확장할 수 있도록 설계되었다.

샌드박스 수와 CPU 코어 수는 직접적으로 동일한 개념은 아니지만, 랙 규모의 컴퓨팅 집적도를 보여주는 지표로 볼 때 결과는 분명하다. AMD는 이미 현재 상용화된 표준 인프라를 통해 미래 기술로 제시되는 랙 밀도를 뛰어넘고 있다.

이러한 AMD 기반 구축 환경은 별도의 새로운 랙 아키텍처 없이도 표준 액체 냉각 데이터센터 장비와 기업이 이미 운영 중인 x86 소프트웨어 생태계에서 구동된다. 이를 통해 소프트웨어 연속성을 유지하고, 마이그레이션 부담을 줄이며, 실제 운영 환경으로의 전환 시간을 단축할 수 있다.

테스트 방법론 및 워크로드 세부 사항

이번 평가에 사용된 워크로드는 에이전틱 AI 서비스 환경에서 중요한 인프라 요소를 반영하도록 구성됐으며, 각 영역은 검증된 업계 표준 벤치마크를 기반으로 평가되었다.

범용 컴퓨팅: SPEC CPU 2017 정수 연산 성능(Integer Rate)

서버측 자바: 처리량과 지연 시간에 민감한 비즈니스 로직 실행 성능을 측정하는 SPECjbb2015 기반 워크로드

웹 서비스: 지속적인 동시 요청 환경에서 NGINX와 WRK 도구 활용

키-값 저장소: 고속 인메모리 작업을 위한 redis-benchmark

인메모리 캐싱 및 분석: Memcached와 memtier_benchmark 활용

관계형 데이터베이스: MySQL 기반 TPROC-C(TPC-C 파생 OLTP 벤치마크)

이번 평가 세트는 AI 에이전트의 전체 엔드투엔드 파이프라인을 모델링한 것이 아닌, 해당 파이프라인이 의존하는 인프라 계층을 분리해 측정하는 데 초점을 맞췄다. 비교는 2소켓(2P) 플랫폼 기반의 100kW 기준 랙 환경에서 수행됐으며, 시스템 전력과 랙당 노드 수는 엔비디아 베라를 기준으로 정규화되었다. 또한 AMD 에픽 "베니스"와 엔비디아 베라 관련 수치는 모델링 및 예측 기반 구성에 따른 결과이므로, 명시된 랙 전력 제약 조건 내에서의 추정치로 제시된다.

단일 스레드 성능

랙 수준 성능과 에너지 효율성 외에도 일부 워크로드에서는 코어당 성능이 여전히 중요한 고려 요소다. AMD는 데이터베이스, 분석, 시뮬레이션 및 멀티 GPU 서버 환경에서의 호스트 프로세싱과 같은 고성능 워크로드에서 지속적으로 우수한 성능을 제공해 왔다. AMD의 차세대 64코어 "베니스" CPU는 엔비디아 베라 88코어 프로세서 대비 코어당 성능에서 약 27% 높은 성능을 제공할 것으로 예상된다. 또한 더 많은 코어를 탑재한 96코어 "베니스" CPU 역시 엔비디아 베라 88코어 프로세서보다 약 11% 높은 코어당 성능을 제공할 것으로 전망된다.

결론: 실제 배포 가능한 성능이 경쟁력을 결정

에이전틱 AI 인프라는 개별 부품의 성능 수치가 아니라 랙 단위 관점에서 설계되어야 한다. 이러한 기준에서 결론은 명확하다. AMD 에픽은 더 높은 수준의 실제 배포 가능한 CPU 처리량과 x86 소프트웨어 연속성, 고밀도 AI 지원 인프라를 구현할 수 있는 표준 기반의 확장 경로를 제공한다. 또한 이러한 인프라는 현재 공급 중인 플랫폼에서 바로 구축할 수 있다. 에이전틱 AI를 실제 운영 환경으로 확장하려는 기업에게는 집적도, 호환성, 구축 용이성의 조합이 단순한 성능을 실제 운영 역량으로 전환하는 핵심 요소가 될 것이다.

더욱 자세한 내용은 방법론 문서를 통해 확인할 수 있다.

AMD, 에픽, EPYC, 에이전틱 AI에, 필요한, 랙 스케일, CPU, 성능, AMD 에픽으로, 구현

﻿에이전틱 AI에 필요한 랙 스케일 CPU 성능, AMD 에픽으로 구현

서버 | ﻿에이전틱 AI에 필요한 랙 스케일 CPU 성능, AMD 에픽으로 구현

에이전틱 AI에 필요한 랙 스케일 CPU 성능, AMD 에픽으로 구현

서버 | 에이전틱 AI에 필요한 랙 스케일 CPU 성능, AMD 에픽으로 구현