PC | AI 기술로 향상된 게이밍, AMD 차세대 RDNA 4 그래픽 아키텍처
AMD는 데스크탑, 모바일, 핸드 헬드에 이르는 게이밍 플랫폼을 지원하는 가운데 올해(2025년)는 라데온 그래픽이 출시된 지 25주년이 되는 해다. 이에 맞춰 AMD는 차세대 라데온 그래픽카드를 위한 새로운 RDNA 4 그래픽 아키텍처를 공개했다.
AMD는 컴퓨팅, 그래픽, 고급 구성 기술 분야에서의 최고 경험을 적용하는 것을 목표로 하며 새로 발표한 RDNA 4는 게임 그래픽을 위해 설계한 가장 강력한 아키텍처다.
AMD 차세대 RDNA 4 그래픽 아키텍처
AMD 차세대 RDNA 4 그래픽 아키텍처
라데온 그래픽은 AMD가 출시한 R100 아키텍처로 시작되었다. 3000만 개 트랜지스터 설계로 하드웨어 변환 및 조명 기능을 제공하는 T&L 렌더 파이프라인을 별도의 픽셀과 정점 셰이더에서 통합된 프로그래밍 가능 셰이더 유닛으로 전환했으며 그 과정에서 많은 새로운 제품이 탄생했다.
25주년 맞이한 AMD 라데온 그래픽
시장에 출시 후 많은 사랑을 받았던 라데온 9700 Pro(Radeon 9700 Pro)에서 라데온 HD 4800 시리즈(Radeon HD 4800 Series)는 최초의 테라플롭스(Teraflops) GPU로 등장했다. 이어서 고대역폭 메모리 기술(HBM)을 최초의 소비자용 그래픽 카드에 도입한 라데온 R9 Fury X(Radeon R9 Fury X), 2019년 게이밍에 보다 최적화된 1세대 RDNA 아키텍처 라데온 RX 5700 XT(Radeon RX 5700 XT)를 선보였다. RDNA 3는 라데온 RX 7000 시리즈(Radeon RX 7000 Series)가 이어받았다. 25년 전 등장한 최초의 라데온 GPU보다 약 2000배 더 복잡한 하드웨어 레이 트레이싱과 AI 가속기를 특징으로 한다.
이제 2025년에는 차세대 RDNA 4 그래픽 아키텍처 기반 라데온 RX 9000 시리즈(Radeon RX 9000) 시리즈가 이를 이어받는다.
AMD RDNA 4는 적응력이 뛰어나고 뛰어난 성능을 제공하도록 개발됐다. 최신 게임 렌더링은 끊임없이 확장되는 도구 세트를 결합해 향상된 디테일과 사실성을 제공한다.
컴퓨트 유닛(Compute Units) 고효율화와 최적화
RDNA 4의 새로운 컴퓨트 유닛에는 RDNA 3에 비해 셰이딩(Shading)을 위한 여러 가지 핵심 최적화가 포함되었다. 가장 큰 개선 사항은 메모리 요청을 처리하기 위한 새로운 아키텍처의 도입이며 이를 통해 현대 게임의 복잡한 셰이딩을 위한 작업을 더욱 효율적으로 적용할 수 있게 됐다. TSMC 4NP(5nm) 제조, 총 4개 셰이더 엔진(Shader Engine)에 8개 WGP(Work Group Processor), WGP는 CU(Compute Unit) 2개로 구성된다. 이전과 유사하나 대신 컴퓨팅 유닛의 연산 성능을 향상했으며 RDNA 3에서 변경된 Dual SIMD32 벡터 유닛과 연산 유닛을 보조하는 캐시도 제공한다.
프론트 엔드에서 애플리케이션의 명령을 보다 빠르게 처리할 수 있는 향상된 명령 프로세서를 거쳐 업데이트된 컴퓨팅 장치가 셰이딩의 효율성을 높이고 레이 트레이싱의 성능을 두 배로 높이며 ML을 더욱 크게 개선하는 코어를 거쳐 효율성과 압축을 개선한 메모리 인터페이스에 이르기까지 모든 면에서 혁신이 이루어졌다. 레스터화는 기하학적 세부 묘사를 통해 보다 사실적인 그래픽 구현이 가능해졌다. 최신 기술을 사용하면 완전 실시간 조명이 가능해지며 해당 세계의 동적 또는 복잡도에 대한 제약이 제거된다.
새로운 동적 레지스터 할당(Dynamically) 기술로 코어의 레지스터 저장소를 개선해 효율성을 높였고 최신 셰이딩 언어에서 함수 호출을 더 빠르게 하기 위해 레지스터 블록 이동을 가속화하는 전용 엔진을 추가했다. 스케일러 유닛(스칼라 유닛, Scalar Unit)의 명령어 세트를 확장해 컴파일러가 유닛에서 더 많은 작업을 예약하여 처리 성능을 높이고 전력을 낮출 수 있다. 이러한 변화를 모두 더하면 새로운 컴퓨팅 유닛은 지금까지 소비자 하드웨어에 탑재된 컴퓨팅 유닛 중 가장 강력한 성능을 제공한다.
이를 바탕으로 RDNA 4 아키텍처의 컴퓨팅 유닛(CU, Compute Units)은 더 많은 연산을 수행할 수 있으며 RDNA 3 대비 약 30% 빨라졌다. CU 효율 향상은 물론 3GHz에 이르는 고클럭도 달성 가능해졌다.
3세대 레이 트레이싱 가속기 및 2세대 AI 가속기
RDNA 4는 3세대 레이 트레이싱 가속기를 탑재했다. 광범위한 성능 개선 외에도 레이 트레이싱 아키텍처를 개선하는 데에도 많은 노력을 기울였다. RDNA 4는 더 많은 광선을 더 빠르게 추적할 수 있으며 전반적인 작업을 줄이기 위해 더 지능적으로 작동하는 하드웨어를 만들었다. 레이 트레이싱 워크로드에서 기존 대비 약 2배의 성능이 향상됐다.
월드 지오메트리의 표현은 RDNA 4에 도입된 많은 고급 RT 기능 중에서 레이 트래버설(Ray Traversal)의 효율성을 좌우하는 핵심 영역 중 하나다. 기하학을 포함하는 데이터 구조를 경계 볼륨 계층 또는 BVH라고 하며 RDNA 4는 방향성 경계 상자라 부르는 데이터를 구성하는 새로운 방법을 통해 혁신적인 접근 방식(OBB, Oriented Bounding Boxes)을 취했다.
또한 데이터 자체에 대한 압축 기능을 개선해 지오메트리를 통한 광선 횡단의 효율성을 크게 높이고 메모리 비용을 낮추어 용량과 대역폭을 보다 효율적으로 활용할 수 있게 됐다. 셰이더 코어의 전반적인 효율을 높이고 메모리 지연 시간 관리도 개선된다.
RDNA 4의 2세대 AI 가속기를 사용하면 사용자는 게임, 콘텐츠 제작 또는 새롭게 등장하는 다른 분야에서 이러한 새로운 기술의 모든 이점을 활용할 수 있다. 더 많은 전담 수학 파이프 라인과 구조적 희소성과 같은 기술 지원을 추가함으로써 16비트 부동 소수점을 사용하는 고정밀성이 필요한 AI 모델이든 8비트 또는 4비트와 같이 낮은 정밀도를 사용하는 초고성능이 필요한 AI 모델이든 이전 세대 하드웨어보다 훨씬 빠르게 새로운 고급 AI 모델을 효과적으로 처리할 수 있다.
RDNA 3에 비해 컴퓨팅 유닛 당 데이터 처리에서 최대 8배까지 높였다. 이러한 개선 사항은 RDNA 4 사용자에게 새로운 가능성의 세계를 열어주며 현재 이러한 기능을 사용하여 게임 및 기타 애플리케이션에 기술을 도입해 연산 처리 성능과 효율을 높일 수 있다. AI 가속기가 2세대로 업그레이드를 통해 3세대 매트릭스 가속기(Matrix Accelerator)가 탑재되었고 FP8 및 BF8 데이터 타입 지원, WMMA(Wave Matrix Multiply Accumulate) 연산도 개선되었고 4:2 Structured Sparsity를 통해 최대 성능을 2배 높이고 전력 대비 성능을 높일 수 있다. SDXL FP16 이미지 생성 성능에서 RDNA 4는 RDNA 3 대비 2배에 이르는 성능 향상을 제공한다.
ML 기반 업스케일링, AMD 피델리티FX 슈퍼 해상도 4 (AMD FSR 4)
게임에서는 초고해상도 또는 프레임 업스케일링이 확대되고 있다. AMD는 2021년 게임 성능을 향상시키는 업스케일링 기술인 FSR(FidelityX Super Resolution) 또는 FSR을 출시했다. 400개가 넘는 게임에서 이용할 수 있으며 최신 버전인 FSR 3.1은 이미 70개 넘는 게임에서 선보였다. 지속적으로 늘어나고 있으며 프레임 생성과 업스케일링을 이용할 수 있게 해준다.
AMD는 2022년 시간적 업스케일링과 모션 벡터 데이터를 통합한 FSR 2를 출시했다. 이 혁신으로 움직임이 많은 장면의 이미지 품질이 획기적으로 향상됐다. 이러한 기세를 이어가며 2023년 FSR을 출시, 프레임을 보간하고 프레임 속도를 더욱 높이는 프레임 생성 기능(Frame Generation, FG)을 추가했다. FSR 3.1에서는 깜빡임과 희미한 빛 현상을 줄이기 위해 많은 품질 개선이 이루어졌다. 하지만 더 중요한 점은 FSR 3.1에서 처음으로 업그레이드 가능한 FSR API를 도입했다는 것이다. 이는 FSR의 향후 버전에서 새로운 기능을 원활하게 출시하는 기반이 되었고 오늘날에 이르렀다.
AMD RDNA 4는 AMD 머신 러닝 기반 업스케일링이 적용된 새로운 버전인 FSR 4를 사용할 수 있다. 4배 더 낮은 해상도로 기본 이미지 품질에 가깝게 제공하고 있다. 고스트, 앤티앨리어싱, 파티클, 패브릭, 투명 효과 등 다양한 효과가 개선됐다. 그 결과 성능이 크게 향상되고 기본 이미지에 가까운 안정성이 크게 향상됐다. 이러한 개선 사항 외에도 FSR 4는 프레임 생성 및 지연 시간 감소 안티랙 기술과 원활하게 호환된다. 게이머를 염두에 두고 설계됐다. 동시에 게임 개발자 커뮤니티와 매우 긴밀하게 협력했다.
이제 개발자들이 미래의 FSR 기술을 원활하게 통합하고 배포할 수 있도록 지원하는 업그게이드 가능하고 유연한 API로 이를 한 단계 더 발전시키고 있다. FSR 4는 FSR 3.1 타이틀에서 활성화할 수 있다. 이를 통해 더 많은 타이틀에 FSR 4를 더 빨리 제공할 수 있다. 즉 FSR 4는 동일한 업그레이드 가능한 API를 통해 신경 렌더링의 미래를 대비할 수 있다는 의미다.
FSR 4는 맞춤화된 게임 머신 러닝 모델을 기반으로 알고리즘이 제작되었다. FSR 4는 RDNA 4 아키텍처의 새로운 FPA 데이터 유형을 사용하여 품질과 성능의 균형을 맞추며 기존 FSR 3.1 프레임워크와 호환되는 유연한 솔루션이다. 고성능 엔드투엔드 솔루션을 위한 프레임 생성 및 지연 방지 기술과 함께 업스케일링을 위한 새로운 ML 옵션을 제공한다.
새로운 ML 가속 FSR 4 업스케일링 알고리즘은 AMD 인스팅트 가속기의 고품질 실측 게임 데이터를 사용해 학습되며 RDNA 4 아키텍처의 하드웨어 가속 FP8 WMMA(Wave Matrix Multiply Accumulate) 기능을 활용해 게임 성능을 크게 향상시키고 최고의 업스케일링 품질을 보장한다.
RDNA 4는 새롭게 지원하는 FP8 정밀도를 기반으로 업스케일링 연산이 수행된다. 이에 따라 FSR 4 업스케일링은 RDNA 4에서만 지원하며 이전 세대 또는 다른 제조사 제품은 지원하지 않는다. FSR 4 업스케일링과 프레임 생성 기술을 통해 게임에 따라 네이티브 대비 최대 3.7배 더 높은 프레임을 얻을 수 있다. FSR 3.1 업스케일링 대비 개선된 이미지 품질을 제공하며 새로운 ML 기반 알고리즘을 통해 더욱 높은 안정성과 세부 표현, 고스팅 현상 개선 등이 이루어진다.
네이티브 모드에서 시리즈가 더 많은 디테일을 유지하는 것을 볼 수 있다. FSR 3는 대부분의 세부 사항을 잘 유지하지만 성능 모드에서 더 부드러운 이미지를 생성한다. FSR 4는 AI를 활용하여 세부 정보를 유지할 수 있을 뿐만 아니라 기본 TAA 모드에서 발생한 세부 정보 손실을 보정하기도 한다. FSR 4는 더욱 선명한 비주얼로 놀라운 3.7배의 프레임 속도 향상을 제공하고 더 빠른 프레임 속도를 확보할 수 있다.
FSR이 향상된 성능을 제공하기는 하지만 지연 시간이 늘어나는데 이를 해결하기 위해 HYPR-RX 기술도 도입했다. 성능 향상 및 지연 시간 단축 기술을 자동으로 활성화하며 아드레날린 드라이버를 통해 작동해 게임 엔진과의 긴밀한 통합이 필요하지 않다. 1000개 이상 게임에 사용할 수 있으며 AMD는 Radeon Anti-Lag와 같은 지연 시간 단축 기술을 자동으로 활성화해 게임에 따라 게임의 지연 시간을 최대 42%까지 줄일 수 있다.
게이머는 출시 당시 30개 이상의 타이틀에서 최신 ML 업스케일링 기술을 이용할 수 있으며 2025년까지 75개 이상의 타이틀이 출시될 예정이다. 나머지 FidelityFX 기술과 마찬가지로 AMD는 올해 하반기 RDNA 4용 FSR 4를 모든 개발자에게 제공해 더 많은 게임에 적용될 것으로 예상된다.
하드웨어 및 소프트웨어 지원에 따라 달라지는 업스케일링 기술과 다르게 AMD는 드라이버 내장 프레임 생성 기술인 AFMF(AMD Fluid Motion Frames)을 제공했다. AFMF도 AFMF 2.1로 업데이트 됐다. FSR 3부터 제공하는 프레임 제너레이션(FG, Frame Generation)과 같이 추가 프레임을 생성하여 게임 프레임 등을 높여 부드러움을 높여준다. HYPR-RX와 FSR 4, Anti-Lag과 같이 작동 가능하며 게임의 FPS를 크게 향상한다.
AMD 래디언스 디스플레이 엔진(AMD Radiance Display Engine)은 최신 디스플레이포트 2.1a 및 HDMI 2.1b를 지원한다. 최대 8K 144Hz의 초고해상도 및 재생빈도, 12비트 HDR 및 REC2020 색 공간 등 놀라운 색상 정밀도를 제공한다.
이후 출시할 4K 240Hz 및 8K 144Hz 디스플레이포트 2.1 모니터를 포함한 4000개 이상의 AMD 프리싱크(AMD Free Sync)호환 디스플레이에서 보다 원활한 게이밍 경험을 이용할 수 있다.
RDNA 4 미디어 엔진은 H.264 코덱 품질 개선과 같은 비트 레이트에서 RDAN 3 대비 녹화 품질 개선, HEVC와 AV1 이미지 품질 및 효율을 개선한다. 비디오 프레임 스케쥴링을 GPU에서 수행하고 하드웨어 플립 큐(Hardware Flip Queue)를 지원한다. 영상 재생 시 CPU 소비 전력은 줄이며 이미지 샤픈을 개선하는 RIS(Radeon Image Shapening)는 RIS 2로 교체해 품질이 향상되고 모든 API에서 사용 가능해진다.
AI를 통해 개선된 AMD 소프트웨어: 아드레날린 에디션은 업계 최고 수준의 AI 사용자 경험을 제공하는 데 초점을 맞춰 업데이트 되었다. 새로운 소프트웨어 매니저를 통해 드라이버 및 AI 소프트웨어를 최신 상태로 유지할 수 있으며 AMD 채팅을 통해 AMD에 관한 답변을 찾거나 무료 및 비공개 텍스트 및 이미지 생성도 가능하다. 또한, 앱 포털(App Portal)에서 새운 AMD 제휴 AI 애플리케이션을 검색하고 다운로드 및 설치할 수 있으며 AMD 이미지 인스펙터(AMD Image Inspector)를 통해 AI를 활용한 소프트웨어 품질 개선도 가능하다.
AMD 라데온 RX 9000 시리즈, RX 9070 XT/ RX 9070
RDNA 4 아키텍처 기반 AMD 라데온 RX 9000 시리즈는 1440p 가격대에서 4K 게임 입문이 가능하도록 제작됐다. 현재 더 많은 게이머가 4K 및 1440p에서 게임을 플레이를 진행하고 앞으로도 이러한 추세는 더욱 증가할 것으로 예상된다.
RDNA 4 아키텍처의 라데온 RX 9000 시리즈는 TSMC N4P(5nm) 제조 공정의 Navi 48을 기반으로 다이 사이즈 357 mm^2와 트랜지스터 수 539억 개, 메모리 속도 20Gbps, 256bit 메모리 버스, PCIe 5.0 x16을 지원한다.
라데온 RX 9070 시리즈는 4096(64CUs)와 64 HW RT Accelerators, HW AI Accelerators 128, Peak AI TOPS 1557 TOPS, 부스트 클럭 2.97GHz, 16GB GDDR6 메모리, TBP(Total Board Power) 304W의 RX 9700 XT와 3584(56CUs)와 56 HW RT Accelerators, HW AI Accelerators 112, Peak AI TOPS 1165 TOPS, 부스트 클럭 2.52GHz, 16GB GDDR6 메모리, TBP(Total Board Power) 220W의 RX 9070가 출시된다.
라데온 RX 9000 시리즈는 16GB의 GDDR6 메모리를 탑재해 최신 게임을 최대 설정에서 더욱 원활하게 플레이 할 수 있도록 지원한다. RX 9070은 1440p 해상도와 높음(High) 설정에서 e스포츠 게임은 PUBG와 카운터 스트라이크 2(Counter Strike 2), 도타 2(DOTA 2), LoL(League of Legends), 발로란트(Valorant) 등에서 170fps 이상에서 300fps 넘는 성능으로 원활한 게임 플레이가 가능하다. 이전 세대인 RX 7900 GRE와 1440p 울트라(Ultra)에서 최대 20% 향상, 4K 해상도와 울트라 설정에서 최대 21%의 향상이 이루어졌다.
이전 세대 RX 7900 GRE와 비교해 AMD 라데온 RX 9070 XT는 1440 해상도 게이밍에서 평균 40% 이상의 향상된 성능을 제공한다. 1440p 울트라 38% 이상, 4K 울트라에서 42% 이상, 4K FSR 4는 최소 3배(3x)에서 4.4배(4.4x)의 향상, AI 처리 성능 애플리케이션에서 최소 112%에서 최대 134% 향상, 연산 처리에서 최소 141%에서 최대 170%의 향상이 이루어졌다.
AMD 라데온 RX 9070 XT와 경쟁 제품인 엔비디아(NVIDIA) 지포스 RTX 5070 Ti와의 비교 성능도 공개했다. RX 9070 XT는 599달러($599, 87만 5천원 선), RTX 5070 Ti는 749달러($749, 109만 4천원 선)로 150달러($150, 21만 9천원 선) 낮게 설정되었다. 30종 이상의 게임에서 달러 당 게이밍 성능은 23% 이상 앞섰다. 4K 울트라 설정에서는 RTX 5070 Ti 대비 2% 낮은 성능으로 서로 경쟁 가능한 성능을 제공한다. 물론 RX 9070 XT는 오버클럭(OC)를 통해 2% 앞선 성능을 제공한다.
AMD 라데온 RX 9000 시리즈 그래픽 카드는 3월 6일(목)부터 에이서(Acer), 애즈락(ASRock), 에이수스(ASUS), 기가바이트(Gigabyte), 파워컬러(PowerColor), 사파이어(Sapphire), 바스타모어(Vastarmor), XFX, 예스톤(Yeston) 등 주요 파트너에수 출시 예정이다. RX 9070 XT와 RX 9070의 권장 소비자 가격은 각각 미화 599($599, 87만 5천원 선)달러, 549($549, 80만 1천원 선)달러다.