当前位置：首页-> 热点 ->内容

AMDRDNA4架构，深度解析

发布时间：2025-03-03 06:42来源：证券之星阅读量：5285

如果您希望可以时常见面，欢迎标星收藏哦~

AMD 终于公布了其下一代 RDNA 4 GPU 架构的完整架构细节，该架构是专为 Radeon RX 9000 系列构建的。

自上一代RDNA 3 及其升级版 RDNA 3.5推出以来，AMD 的 RDNA 4 架构一直备受期待。虽然 RDNA 4 架构不会有任何超级发烧友 SKU，但它确实带来了全新的变化，应该会提升游戏性能，因为它主要为游戏玩家设计。

因此，AMD 对 RDNA 4 带来了以下新变化:

针对高端游戏工作负载进行了高度优化
提高光栅化和计算效率
光线追踪性能的重大改进
全面的高性能 ML 支持
增强所有工作负载的带宽效率
为游戏玩家和创作者提供多媒体改进

与 RDNA 2 相比，RDNA 4 GPU 的光栅化性能提升了近 2 倍，光线追踪性能提升了近 2.5 倍，每个计算单元的 ML工作负载提升了 3.5 倍。接下来，我们将深入研究 RDNA 4 架构框图的构建块，看看整个芯片是如何组合在一起的。

RDNA 4 的新核心 IP

RDNA 4 GPU 架构的核心构建块是计算引擎。

新的计算单元配备双 SIMD32 矢量单元和增强矩阵运算，其中包括:

2x-16b 和 4x-8b/4b 密集矩阵速率
4:2 结构化稀疏性，实现 +2 倍速率
新的 8b 浮点数据类型
带转置的矩阵负载

RDNA 4 还带来了新的着色改进，RDNA 4 着色可以动态分配寄存器。它们可以在需要时从池中请求寄存器。它们可以在完成这项工作后将寄存器释放回池中，并且软件会在分配等待时间时管理条件。这可以更好地处理内存延迟，同时共享核心的整体效率可以显著提高。

在标量单元方面，您可以获得新的 Float32 操作，同时调度更新包括拆分和命名屏障、加速溢出/填充操作和改进的指令预取。

然后我们有第三代光线追踪单元，提供双倍的光线交叉率、改进的 BVH 压缩、加速的光线遍历和着色以及定向边界框。这些新的光线追踪核心提供了芯片上最大的性能提升之一。每个光线加速器也得到了改进:

2x 盒子和三角形交叉单元
硬件实例转换
改进 RT 堆栈管理
BVH8 和改进的节点压缩
定向边界框

这些新的光线追踪升级还大大降低了 BVH 的内存要求。平均而言，得益于 8 宽设计，RDNA 4 可将内存要求降低至 RDNA 3 的 60% 以下。

但这并不是全部。AMD 还实施了一种新的解决方案，通过对每个框进行旋转编码来更紧密地绑定所包含的几何图形，从而降低遍历成本，同时将框与几何图形对齐可以帮助消除大部分空间，并且射线方向在进入框时会进行转换以匹配编码的旋转。这可以减少遍历步骤，通过消除遍历热点来降低峰值成本，并将遍历性能提高 10%。

这些变化的结果是，与 RDNA 3 相比，RDNA 4 CU 在相同的时钟速率和带宽下提供了 2 倍的光线遍历性能。

还有一个改进的命令处理器，它具有增强的数据包加速器。缓存也得到了升级，现在更加平衡，具有高达 64 MB 的第三代 Infinity Cache、8 MB 的 L2 缓存和 2MB 的聚合 CU 缓存。在内存方面，RDNA 4 GPU 架构保留了对 GDDR6 的支持，但已升级到更快的速度，最高可达 20.00 Gbps，容量高达 16 GB，并配有 256 位总线接口。RDNA 4 还采用了增强的内存压缩技术来减轻可用带宽的压力。

对于 AI，AMD 正在利用其第三代矩阵加速引擎，该引擎具有改进的张量密集率、新的 8b 浮点数据类型、结构化稀疏性支持和基于 ML 的升级或超分辨率。

与 RDNA 3 相比，RDNA 4 CU 在 FP16 的标准场景中将图像生成性能提高了 2 倍。

媒体引擎采用双宽度设计，配备更新的编码/解码引擎，AVC、H.264、H.265 质量提升高达 25%，AV1 吞吐量翻倍，并针对低延迟流媒体进行了优化。最后，还有更新的 Radiance 显示引擎，它现在支持 DisplayPort 2.1a、HDMI 2.1b 输出和更新的缩放和锐化引擎。

RDNA 4 框图

接下来，我们转到代表完整 Navi 48 GPU SKU 的 RDNA 4 框图。RDNA 4 GPU 采用台积电 4nm 工艺节点制造，具有多达 539 亿个晶体管，SKU 尺寸为 356.5mm2。该芯片还完全符合 PCIe Gen5 标准。

现在是时候拆开 RDNA 4 芯片了。Navi 48 GPU由四个着色器引擎组成，每个引擎都包含多个“双计算单元”，而不是 WGP。每个双计算单元都有两个计算单元，每个着色器引擎总共有 8 个 DCU 或 16 个 CU。芯片本身总共有 32 个 DCU 或 64 个 CU，总共有 4096 个流处理器或着色器单元。

每个 DCU 都有两个光线加速器引擎，每个着色器引擎总共有 16 个 RA，总共有 64 个 RA，而每个 DCU 还包含 4 个矩阵加速引擎，每个着色器引擎总共有 32 个 MA，总共有 128 个 MA。每个着色器引擎还包含四个 RB+ 块、一个光栅化器引擎和一个 Prim Unit 块。芯片外围有四个第三代无限缓存部分和四个 4x16 位内存控制器。

L2 缓存位于 GPU 的正中间，其中还包括两个 Geometry 处理器、两个 ACE 单元以及 HWS 和 DMA 各一个。该芯片使用 Infinity Fabric 连接。

AMD 的未来之路

在 PC 游戏领域，光线追踪通常被视为过时的术语。当然，它是一种追踪光线的形式，可以使场景看起来更逼真，并且刚刚开始在游戏机领域获得关注，但竞争对手经常使用另一种类型的光线追踪器，称为路径追踪。虽然光线追踪使用单个主光线在光源上投射反射、阴影和折射，但路径追踪使用所有可能的光线路径，并且是一种更昂贵的技术。

NVIDIA 的路径追踪技术在《赛博朋克 2077》或《心灵杀手 II》等游戏中可见一斑，这些游戏被视为对图形要求最高的游戏之一，而且画面效果也绝对令人惊叹。通过升级和帧生成等新技术，路径追踪得以实现，但 Green 团队还投资了一项名为“光线重建”的全新技术，该技术通过移除引擎内的降噪器并使用 AI/ML 帮助重新评估和重建图像，帮助更有效地实现路径追踪。

看起来 AMD 也采用了这种方法，并采用自己的神经超级采样和去噪技术来实现 RDNA 4 的路径追踪功能。

升级的媒体和显示功能

如果不谈论媒体和显示引擎，我们就不能结束这次深入探讨。因此，首先，我们首先介绍新的媒体引擎，它通过以下方式提供增强的游戏流媒体和录制功能: