当前位置: 首页-> 热点 ->内容

AMDRDNA4架构,深度解析

发布时间:2025-03-03 06:42来源:证券之星 阅读量:5285   

如果您希望可以时常见面,欢迎标星收藏哦~

AMD 终于公布了其下一代 RDNA 4 GPU 架构的完整架构细节,该架构是专为 Radeon RX 9000 系列构建的。

自上一代RDNA 3 及其升级版 RDNA 3.5推出以来,AMD 的 RDNA 4 架构一直备受期待。虽然 RDNA 4 架构不会有任何超级发烧友 SKU,但它确实带来了全新的变化,应该会提升游戏性能,因为它主要为游戏玩家设计。

因此,AMD 对 RDNA 4 带来了以下新变化:

  • 针对高端游戏工作负载进行了高度优化

  • 提高光栅化和计算效率

  • 光线追踪性能的重大改进

  • 全面的高性能 ML 支持

  • 增强所有工作负载的带宽效率

  • 为游戏玩家和创作者提供多媒体改进

与 RDNA 2 相比,RDNA 4 GPU 的光栅化性能提升了近 2 倍,光线追踪性能提升了近 2.5 倍,每个计算单元的 ML工作负载提升了 3.5 倍。接下来,我们将深入研究 RDNA 4 架构框图的构建块,看看整个芯片是如何组合在一起的。

RDNA 4 的新核心 IP

RDNA 4 GPU 架构的核心构建块是计算引擎。

新的计算单元配备双 SIMD32 矢量单元和增强矩阵运算,其中包括:

  • 2x-16b 和 4x-8b/4b 密集矩阵速率

  • 4:2 结构化稀疏性,实现 +2 倍速率

  • 新的 8b 浮点数据类型

  • 带转置的矩阵负载

RDNA 4 还带来了新的着色改进,RDNA 4 着色可以动态分配寄存器。它们可以在需要时从池中请求寄存器。它们可以在完成这项工作后将寄存器释放回池中,并且软件会在分配等待时间时管理条件。这可以更好地处理内存延迟,同时共享核心的整体效率可以显著提高。

在标量单元方面,您可以获得新的 Float32 操作,同时调度更新包括拆分和命名屏障、加速溢出/填充操作和改进的指令预取。

然后我们有第三代光线追踪单元,提供双倍的光线交叉率、改进的 BVH 压缩、加速的光线遍历和着色以及定向边界框。这些新的光线追踪核心提供了芯片上最大的性能提升之一。每个光线加速器也得到了改进:

  • 2x 盒子和三角形交叉单元

  • 硬件实例转换

  • 改进 RT 堆栈管理

  • BVH8 和改进的节点压缩

  • 定向边界框

这些新的光线追踪升级还大大降低了 BVH 的内存要求。平均而言,得益于 8 宽设计,RDNA 4 可将内存要求降低至 RDNA 3 的 60% 以下。

但这并不是全部。AMD 还实施了一种新的解决方案,通过对每个框进行旋转编码来更紧密地绑定所包含的几何图形,从而降低遍历成本,同时将框与几何图形对齐可以帮助消除大部分空间,并且射线方向在进入框时会进行转换以匹配编码的旋转。这可以减少遍历步骤,通过消除遍历热点来降低峰值成本,并将遍历性能提高 10%。

这些变化的结果是,与 RDNA 3 相比,RDNA 4 CU 在相同的时钟速率和带宽下提供了 2 倍的光线遍历性能。

还有一个改进的命令处理器,它具有增强的数据包加速器。缓存也得到了升级,现在更加平衡,具有高达 64 MB 的第三代 Infinity Cache、8 MB 的 L2 缓存和 2MB 的聚合 CU 缓存。在内存方面,RDNA 4 GPU 架构保留了对 GDDR6 的支持,但已升级到更快的速度,最高可达 20.00 Gbps,容量高达 16 GB,并配有 256 位总线接口。RDNA 4 还采用了增强的内存压缩技术来减轻可用带宽的压力。

对于 AI,AMD 正在利用其第三代矩阵加速引擎,该引擎具有改进的张量密集率、新的 8b 浮点数据类型、结构化稀疏性支持和基于 ML 的升级或超分辨率。

与 RDNA 3 相比,RDNA 4 CU 在 FP16 的标准场景中将图像生成性能提高了 2 倍。

媒体引擎采用双宽度设计,配备更新的编码/解码引擎,AVC、H.264、H.265 质量提升高达 25%,AV1 吞吐量翻倍,并针对低延迟流媒体进行了优化。最后,还有更新的 Radiance 显示引擎,它现在支持 DisplayPort 2.1a、HDMI 2.1b 输出和更新的缩放和锐化引擎。

RDNA 4 框图

接下来,我们转到代表完整 Navi 48 GPU SKU 的 RDNA 4 框图。RDNA 4 GPU 采用台积电 4nm 工艺节点制造,具有多达 539 亿个晶体管,SKU 尺寸为 356.5mm2。该芯片还完全符合 PCIe Gen5 标准。

现在是时候拆开 RDNA 4 芯片了。Navi 48 GPU由四个着色器引擎组成,每个引擎都包含多个“双计算单元”,而不是 WGP。每个双计算单元都有两个计算单元,每个着色器引擎总共有 8 个 DCU 或 16 个 CU。芯片本身总共有 32 个 DCU 或 64 个 CU,总共有 4096 个流处理器或着色器单元。

每个 DCU 都有两个光线加速器引擎,每个着色器引擎总共有 16 个 RA,总共有 64 个 RA,而每个 DCU 还包含 4 个矩阵加速引擎,每个着色器引擎总共有 32 个 MA,总共有 128 个 MA。每个着色器引擎还包含四个 RB+ 块、一个光栅化器引擎和一个 Prim Unit 块。芯片外围有四个第三代无限缓存部分和四个 4x16 位内存控制器。

L2 缓存位于 GPU 的正中间,其中还包括两个 Geometry 处理器、两个 ACE 单元以及 HWS 和 DMA 各一个。该芯片使用 Infinity Fabric 连接。

AMD 的未来之路

在 PC 游戏领域,光线追踪通常被视为过时的术语。当然,它是一种追踪光线的形式,可以使场景看起来更逼真,并且刚刚开始在游戏机领域获得关注,但竞争对手经常使用另一种类型的光线追踪器,称为路径追踪。虽然光线追踪使用单个主光线在光源上投射反射、阴影和折射,但路径追踪使用所有可能的光线路径,并且是一种更昂贵的技术。

NVIDIA 的路径追踪技术在《赛博朋克 2077》或《心灵杀手 II》等游戏中可见一斑,这些游戏被视为对图形要求最高的游戏之一,而且画面效果也绝对令人惊叹。通过升级和帧生成等新技术,路径追踪得以实现,但 Green 团队还投资了一项名为“光线重建”的全新技术,该技术通过移除引擎内的降噪器并使用 AI/ML 帮助重新评估和重建图像,帮助更有效地实现路径追踪。

看起来 AMD 也采用了这种方法,并采用自己的神经超级采样和去噪技术来实现 RDNA 4 的路径追踪功能。

升级的媒体和显示功能

如果不谈论媒体和显示引擎,我们就不能结束这次深入探讨。因此,首先,我们首先介绍新的媒体引擎,它通过以下方式提供增强的游戏流媒体和录制功能:

  • H.264 低延迟编码质量提升 25%

  • HEVC 编码质量提升 11%

  • B 帧提高了 AV1 编码效率

  • 720p 编码性能提升高达 30%

  • 针对 FFMPEG、OBS 和 Handbrake 进行了优化

  • VCN 低功耗视频播放

显示体验也得到了改善,增强的 FreeSync 电源优化模式可在大多数双显示器配置中提供更低的空闲功率,硬件翻转队列支持可将视频帧调度卸载到 GPU 并节省 CPU 功率以进行视频播放,而 Radeon 图像锐化 2 可提供高质量的图像和场景,并通过单个切换在所有 API 上工作。

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

今天是《半导体行业观察》为您分享的第4050期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

声明:免责声明:此文内容为本网站转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。

热门热点

,磐镭PELADN宣布将推出一款全新8G显存版本的RX6500XT显卡,定位于适配1080p中高画质游戏。RX6500XT8GD6ARMOUR据介绍,全新的RX...
热点
赵东兴的指尖与指甲缝透着浅浅的黑色。这是30多年长期下矿井留下的痕迹。如今,他坐在“5G+有轨运输电机车无人驾驶”智能车间中控室里,双手正熟练地操作着控制台:看...
热点
热点推荐