에이전틱 AI, AI 데이터센터에서 CPU에 새롭게 주목

IT | 에이전틱 AI, AI 데이터센터에서 CPU에 새롭게 주목

권경욱 기자 IT 0 0 03.17 12:49

지난 몇 년 동안 상황은 비교적 단순했다. 하이퍼스케일러들은 인공지능에 대한 폭발적인 수요를 충족하기 위해 더 많은 GPU를 구매하는 방식으로 대응해 왔다.

GPU에 대한 수요는 기하급수적으로 증가했고, 그에 따라 GPU에 모든 관심이 집중됐다. 그러나 컴퓨팅 로직의 중심인 CPU는 항상 수많은 GPU가 함께 작동하도록 조율하고, 동시에 기업의 일상적인 핵심 비즈니스 애플리케이션을 관리하는 데 필수적인 역할을 수행했다.

그리고 현재 에이전틱 AI는 CPU의 새로운 시대를 열고 있다.

현대의 AI 환경은 어떤 규모의 AI 배포이든 CPU가 얼마나 핵심적이고 기반이 되는 요소인지 분명하게 보여준다. 이러한 흐름 속에서 AMD는 주요 AI 및 엔터프라이즈 애플리케이션 전반에서 최고 수준의 성능을 제공할 수 있도록 AMD 에픽(EPYC) CPU 제품을 최적화하고 있다.

최근 발표된 데이터에 따르면, 5세대 AMD 에픽 CPU 기반 시스템은 동일한 급의 엔비디아 그레이스(Grace) 슈퍼칩 기반 시스템 대비 코어당 최대 2.1배 높은 성능을 제공하는 것으로 추정된다. 또한 동일한 AMD 에픽 CPU 기반 시스템은 동일한 엔비디아 그레이스 슈퍼칩 기반 시스템과 비교했을 때 와트당 연산 성능을 측정하는 SPECpower 지표에서 최대 2.26배 향상된 성능을 제공하는 것으로 예측된다.

AI 데이터센터에서는 전력, 공간, 비용 측면에서 추가적인 부담 없이 가속기에 지속적으로 데이터를 공급할 수 있는 CPU가 가장 우수한 선택이기 때문에 이러한 균형이 중요하다.

마찬가지로 중요한 점은 x86 CPU 아키텍처가 폭넓고 검증된 소프트웨어 생태계를 제공한다는 것이다. 현재 대다수 엔터프라이즈 워크로드가 온프레미스와 클라우드 환경 전반에서 이미 x86 기반으로 네이티브 실행되고 있어 고객들은 이를 그대로 활용할 수 있다. 또한 x86 아키텍처는 Arm 기반 시스템을 도입할 때 흔히 발생하는 리팩토링, 재컴파일, 여러 코드베이스 관리 등의 부담 없이 고객들이 보다 빠르게 확장할 수 있도록 지원한다.

CPU와 GPU의 협업 방식

AI 데이터센터에서 CPU와 GPU의 관계는 민첩한 선수들로 구성된 팀을 이끄는 감독에 비유할 수 있다.

CPU라는 감독은 작전을 지시하고, 상대 팀의 움직임에 대응하며, 시간을 관리하고, 모든 선수가 올바른 방향으로 움직이도록 조율한다. GPU는 선수들로, 각 GPU는 한 번에 하나의 플레이에서 특정 작업을 매우 효율적으로 수행하는 데 특화되어 있다.

서버 CPU는 복잡한 작업을 처리하고 시스템 내에서 GPU를 조율하도록 설계되어 있다. CPU는 메모리에서 데이터를 불러와 GPU가 처리할 수 있도록 준비하고, 적절한 시점에 전달되도록 조정하며, GPU가 작업을 수행하는 데 필요한 명령과 데이터를 관리한다. 반면 GPU는 더 작은 코어로 구성되어 있으며, 비교적 단순한 작업을 매우 빠른 속도로 반복 수행하도록 설계되어 있다.

학습과 추론 단계에서 달라지는 역할

AI 학습 단계에서는 GPU와 높은 처리량을 갖춘 컴퓨팅 성능이 특히 중요하다. 신경망은 대규모 데이터 그리드를 기반으로 한 연산에 크게 의존하며, AI 학습 과정에서는 시스템이 패턴을 학습할 수 있도록 다수의 GPU가 반복적으로 데이터를 처리해야 한다.

학습 과정에서 CPU는 데이터를 관리하고 GPU에 공급해 GPU가 최고 효율로 작동하도록 지원한다. 또한 CPU는 운영체제를 실행하고 메모리를 관리하며 작업 스케줄링을 담당한다. 수행해야 할 작업이 많지만 CPU에 큰 부담이 되는 수준은 아니다.

AI 작업의 중심이 점차 추론 단계로 이동하면서 CPU의 역할도 변화한다. 이 단계에서 CPU는 단순히 작업을 조율하는 역할을 넘어 결과 중심의 관리 역할을 수행하게 된다. GPU가 여전히 신경망 연산의 상당 부분을 담당하지만, CPU는 데이터 수집, 정보 전달, 결과 해석, 최종 의사결정 등 보다 고차원적인 판단을 담당한다. 추론 단계에서는 제어, 조정, 복잡한 의사결정이 동시에 이루어지기 때문에 CPU의 역할이 더욱 중요해진다.

이는 아키텍처가 왜 중요한지를 보여준다.

AMD는 칩렛(chiplet) 설계 분야의 선도 기업이다. 이러한 모듈형 접근 방식은 컴퓨팅 성능, I/O, 메모리 대역폭, 전력 설계를 유연하게 조정할 수 있도록 하며, 핵심 엔터프라이즈 애플리케이션과 가상화부터 GPU 오케스트레이션, 다단계 에이전틱 AI 워크플로우에 이르기까지 다양한 환경에 적합한 컴퓨팅 성능을 제공할 수 있다.

에이전틱 AI, CPU 역할 확대

최소한의 인간 개입만으로 계획을 세우고 판단하며 행동할 수 있는 에이전틱 AI의 등장으로 CPU에는 그 어느 때보다 더 많은 역할이 요구되고 있다. AI 에이전트 환경에서 CPU는 기존 추론 방식처럼 단순히 응답을 회신하는 데 그치지 않고, 결과를 검토하고 추가적인 논리를 적용하는 데 더 많은 시간과 연산을 사용한다. 또한 최종 결과가 도출되기 전, 조정된 지침과 함께 문제를 GPU로 다시 보내 그 지침에 따라 추가 연산을 수행하도록 한다.

이와 함께 에이전틱 AI 시스템에서 CPU는 툴 호출(tool call), API 요청, 메모리 질의 등을 관리해야 한다. 동시에 이상적인 환경에서는 이러한 작업을 수행하면서도 GPU가 계속 작업을 수행하도록 유지해야 한다.

에이전틱 AI의 확산은 CPU 사용량 증가로 이어지고 있다. CPU는 에이전트, 엔터프라이즈 애플리케이션, 데이터 레이크 사이에서 데이터를 이동시키는 역할을 수행하기 때문이다.

CPU를 감독에 비유하자면, 단순히 경기의 마지막 몇 분을 소화하는 것에 그치지 않고 득점을 위해 연속적으로 작전을 실행하는 역할에 가깝다. 그리고 이러한 결정들은 GPU 활용 방식, 전체 처리량과 특히 AI 서비스 제공업체에게 중요한 총소유비용(TCO)에 영향을 미친다.

AMD 에픽 서버 CPU의 역할

에이전틱 AI는 AI의 가능성을 확장하고 있다. 동시에 데이터센터 아키텍트라면 누구나 알고 있는 한 가지 사실을 다시 한번 확인시켜 준다. 최상의 AI 성과는 균형 잡힌 시스템에서 나온다는 점이다. GPU는 앞으로도 컴퓨팅 성능을 주도하겠지만, CPU는 오케스트레이션, 효율성, 데이터센터 통합 측면에서 점점 더 중요한 역할을 하게 될 것이다. 이를 통해 데이터센터의 공간이나 전력 한도를 늘리지 않으면서도 더 많은 AI 시스템을 수용할 수 있다.

AI 성능은 점점 더 시스템 수준에서 결정되고 있으며, AMD는 CPU와 GPU는 물론 네트워킹과 개방형 소프트웨어 스택에 이르기까지 전반을 최적화할 수 있는 독보적인 위치를 갖추고 있으며, 이를 통해 시스템 와트당 클러스터 성능을 극대화할 수 있다. AMD 에픽 CPU는 AMD 인스팅트(Instinct) GPU와 긴밀하게 통합되어 효율적인 GPU 관리를 지원하며, AMD ROCm 소프트웨어 스택이 이러한 시스템을 하나로 통합한다.

AMD는 이미 이러한 기반을 바탕으로 다음 단계를 준비하고 있다. 코드명 “베니스(Venice)”로 알려진 차세대 AMD 에픽 CPU는 차세대 랙 규모 AI 아키텍처인 “헬리오스(Helios)”를 구동할 핵심 프로세서로 자리할 것으로 예상된다. “베니스”는 AI 및 범용 워크로드 전반에서 성능, 집적도, 에너지 효율성 측면의 리더십을 한층 확대할 것으로 기대된다.

AI는 전반적인 컴퓨팅 수요를 가속화하며 전 세계적으로 서버 교체 수요를 촉진하고 있다. AMD는 에픽 프로세서를 통해 고객이 미래의 컴퓨팅 환경을 확장할 수 있는 CPU 기반을 제공하는 동시에, 수많은 고성능 GPU가 최상의 성능을 발휘할 수 있도록 지원하고 있다.

에이전틱 AI, AI 데이터센터에서, CPU에, 새롭게, 주목

﻿에이전틱 AI, AI 데이터센터에서 CPU에 새롭게 주목

IT | ﻿에이전틱 AI, AI 데이터센터에서 CPU에 새롭게 주목

에이전틱 AI, AI 데이터센터에서 CPU에 새롭게 주목

IT | 에이전틱 AI, AI 데이터센터에서 CPU에 새롭게 주목