AMD Zen4架构深入揭秘！49％性能提升从何而来？--快科技--科技改变未来

正文内容 评论（0）

AMD Zen4架构深入揭秘！49％性能提升从何而来？

2022-10-09 19:06:09 出处：快科技作者：上方文Q编辑：上方文Q 评论(0)

#AMD #CPU处理器

一、全新的Zen4内核：前端大变、不一样的AVX-512

AMD锐龙7000系列的性能大家都见识过了，提升幅度可能没有预想得那么猛，但依然诚意十足。

锐龙9 7900X作为次旗舰，就足以碾压12代酷睿顶级灰烬版i9-12900KS。主流的锐龙5 7600X更是再次展现爆款潜质，直接让i5-12600K抬不起头来。

至于和Intel 13代酷睿究竟鹿死谁手，还要到这个月底才能见分晓了。

按照AMD的官方数据，Zen4相比于Zen3，同等性能下功耗可降低至多62％，同等功耗下性能可提升至多49％！

今天，我们就来深入了解一下Zen4架构、平台的革新之处，看看如此巨大的提升是从而来的。

先从Zen架构的历史讲起……

Zen4已经是AMD Zen系列架构的第四代(Zen/Zen+算作一代)，对比来看它的改革、提升幅度都不是最大的，更多的是在Zen3基础上的一次深度优化增强，并在新工艺的加持下大幅提升频率，最高加速频率不但首次突破5GHz，而且跨越性地达到了5.7GHz！

对比四代架构，初代Zen的变革、提升幅度最猛(当然主要是推土机实在太弱了)，Zen2是一次优化升级，尤其chiplet设计奠定未来基础，Zen3则是再一次革命性的大变，19％ IPC提升也非常感人，Zen4再来个小步快跑就非常符合情理和逻辑了。

按照AMD的说法，Zen4架构的设计目标有三个方面：

一是性能，IPC(每时钟周期指令数或同频性能)和频率提升幅度都要达到两位数(超过10％)；

二是延迟，通过增大二级缓存、改进缓存有效性，大幅降低平均延迟；

三是能效，在整个TDP(热设计功耗)范围内，显著降低动态功耗。

为了达成以上目标，Zen4对整个微架构体系进行了升级优化，包括前端、执行引擎、载入/存储单元、缓存、指令集等等，后边我们会一一讲到。

整体而言，Zen4架构的核心升级点包括：改进分支预测、增大OP指令作缓存、增大指令退役队列、增大整数/浮点寄存器文件、加深核心缓冲吞吐、浮点单元支持AVX-512指令、改进载入/存储单元、增大二级缓存。

前端部分变化较大，这里包括指令缓存、分支预测、解码器、指令缓存、微指令队列等模块。

Zen4架构重点改进了分支预测部分，包括每时钟周期预测两个跳转分支、一级缓存BTB(分支目标缓冲)增大50％达到1.5K条目、二级缓存BTB扩容从6.5K略增至7K。

另外，指令缓存(Op Cache)增大了约68％达到6.75K条目，每时钟周期可以完成多达9个宏指令(增加1个)。

不变的则是解码器每时钟周期发出4条指令、微指令队列每时钟周期分派6个整数＋浮点指令。

执行引擎部分变化较小，尤其是每时钟周期10次整数、6次浮点的指令分派保持不变。

指令退役队列或者说ROB(重排序缓冲)从256条目增大25％至320条目，整数寄存器从192个增至224个，浮点寄存器从160个增至192个，缓存与核心之间的吞吐能力也提升了。

载入/存储单元部分，载入队列从72个增大至88个(22％)，存储队列维持64个不变，二级缓存DTLB(数据页表缓冲)从2K条目增大了多达50％至3K条目，另外还减少了数据缓存端口的冲突几率。

也许有同学会问，很多模块都是不断增大、再增大，为什么不一步到位，从设计之初就做个大容量呢？

一方面，谁也无法精准预测每个模块多大容量下效率最好，而且不同模块之间需要彼此协调配合；

另一方面，更大容量意味着更多晶体管、更大核心面积、更高功耗、更高成本，需要在性能、能效之间做出妥协、寻求平衡。

缓存体系也做了优化，尤其是二级缓存，不但容量翻了一番，每核心来到1MB，还提升了速度。

同时，从二级缓存到三级缓存、从三级缓存到内存，都支持更多命中失败(outstanding miss)，可以减少流水线的停顿，增加缓存回填带宽，提升整体效率。

不过整体缓存架构没变，一级缓存依然是32KB+32KB的每核心容量组合，三级缓存则继续每8个核心一组共享32MB。

AVX-512指令集或许是大家对Zen4最感兴趣的地方之一，毕竟在以往这是Intel处理器的专属技术，而且争议非常大，有人觉得它非常有用，有人觉得它只是徒增功耗，甚至成为极限烤机专用……

Zen4支持的AVX-512并非直接将Intel那套技术照搬过来(也不允许)，而是选择了不一样的实现方式。

Intel处理器执行AVX-512指令时，是完整的512-bit通道(这也是该指令集命名的来源)，但是AMD走的是256-bit通道，也就是砍了一半，因此遇到512-bit的指令就需要拆分成两个256-bit指令来执行。

事实上，AMD推土机家族、Zen家族在执行AVX-2 256-bit指令的时候，也是拆分成两个128-bit。这都是一脉相承的

AMD表示，这么做可以节省芯片面积，并且避免执行AVX-512指令时发热过大、频率下降的情况出现(峰值性能确有轻微损失)，因为真正长达512-bit的指令并不多，就像以前256-bit的指令不够多。

Zen4支持的AVX-512指令一览并不是把Intel的全都搬了过来，而是选择性地加入，除了一些基础指令，特别值得注意的是用于AI加速的VNNI、BF16，这也是Intel之前宣传的重点。

VNNI是面向AI模型推理的矢量指令，可将多个8-bit或16-bit整数串联成512-bit，提升卷积神经网络常用的MAC(乘法累加)的速度。

另一个是BF16，面向AI加速，将双精度浮点FP32中的23位小数减少到7位，并保留1位符号、8位指数，结果与FP32相比范围相同，只是精度较差，但仍远高于单精度FP16。

按照AMD的说法，加入AVX-512指令集后，Zen4架构的FP32浮点推理多线程性能可提升1.31倍，VNNI INT8整数推理多线程性能可提升2.47倍！

另外，Zen4还增加了一些虚拟化、安全性方面的新指令，就不赘述了。

以上是Zen4、Zen3的具体变化对比，可以看到其中不少都维持不变，其他很多则只是数量/容量上的扩充，因此说Zen4就是个放大优化版的Zen3也没什么毛病。

值得注意的是，Zen4二级缓存、三级缓存的延迟甚至还略微加大了。

AMD宣称，Zen4 IPC平均提升了13％，这是在固定4GHz八核心情况下，通过22个项目对比Zen3得出的几何平均结果。

当然不同项目的变化幅度差异很大，比如说CPU-Z单线程只提升了1％(所以这个测试项目跑分变化不大)，寒霜引擎游戏、《GTA V》、PUBG吃鸡、CineBench R23单线程这些项目提升也有限。

wPrime 1024M是变化最大的提升幅度达惊人的39％，另外像是Dolphin Web测试和《看门狗：军团》、《F1 2022》、《杀出重围：人类分裂》、《地铁：离去》等游戏的提升也很喜人。

13％的提升进一步划分，可以看到前端架构改进带来的提升幅度最大，其次是载入/存储单元、分支预测单元，而来自执行引擎、二级缓存的贡献相对较小。

这和前边架构分析的变化幅度是相符合的。

IPC提升之外，锐龙7000系列的频率也达到了前所未有的高度，旗舰锐龙9 7950X最高可以加速到5.7GHz(还有个5.85GHz fMax频率但官方一直保持缄默)。

当然，5.7GHz的频率只有单核心加速可以做到，AMD也公布了锐龙9 7950X在不同核心/线程下的最高加速频率，可以看到2核心可以到5.6GHz，8核心可以接近5.4GHz，16核心全开也能到5.2GHz。

13％ IPC提升，加上频率拉到最高5.7GHz，锐龙7000的单线程性能提高了最多29％。

一个很容易被忽略的点，就是锐龙7000系列支持Eco模式，运行在更低的TDP，比如170W的可以低至105W或者65W，105W的可以低至65W。

AMD宣称，锐龙9 7950X 65W Eco模式下的性能，依然可以超过正常的锐龙9 5950X。

Eco模式未来会集成在主板BIOS的超频模块，可一键开启，还会集成在锐龙Master软件中。

有趣的是，得益于新的架构和工艺，Zen4单个核心加二级缓存总面积仅为3.84平方毫米，相比于Intel 7工艺的12代酷睿的7.46平方毫米，小了几乎一半，能效则高了几乎一半。

二、全新的IO Die：首次加入GPU、6nm新工艺给力

Zen2架构首次引入了chiplet设计，一般称之为小芯片、芯粒，一直延续至今，包括一两个CCD、一个IOD，前者包括CPU核心、缓存，后者包括各类控制器和输入输出，类似传统双芯片组的北桥。

Zen4 CCD部分从台积电7nm升级为台积电5nm工艺，IOD部分则从GF 12nm跃进到台积电6nm，自然有利于提高集成度、控制面积。很大程度上可以说，IOD这次的变化甚至比CCD还要猛。

首先，Zen4 IOD首次集成GPU图形核心，而且用上了最新的RDNA2架构，堪比移动端的锐龙6000U/H系列处理器，桌面APU都还没有这个待遇。

首次集成DDR5内存控制器，最高标准频率5200MHz(还可以继续超频)，甚至还支持ECC(是否开启取决于主板)——DDR4确实没了，不要再想了。

首次集成PCIe 5.0控制器，可提供28条通道，可拆分为一路x16、三路x4。

首次支持USB Type-C接口，支持USB BIOS Flashback，可通过U盘和USB接口直接刷新BIOS，现在不少高端主板支持，以后就可以作为标配了，方便之极。

此外，Infinity Fabric(IF)高速互连总线也得到了优化，带来了新的FCLK(IF总线)、UCLK(内存控制器)、MCLK(内存)频率比例，后边内存环节细讲。

Zen4 IOD集成的GPU非常迷你，只有两个CU计算单元(128个流处理器)、四个ACE异步计算引擎、一个HWS硬件寄存器，打游戏什么的就别想了，它只是个“亮机卡”，用途有二：

一是作为基本的显示和视频输出，给那些不需要独显、只需小规模集显的环境，比如商务办公、商业嵌入式、CAD、CAM等领域。

二是作为备用显示设备，在独立显卡故障的时候，提供一个进入系统、排查问题的途径。

规格方面倒是挺齐全，尤其是显示与多媒体，支持H.264、H.265(HEVC)视频编解码，AV1视频解码，DisplayPort 2.0 UHBR10/DSC/HDR(AN独显都还没有呢)，HDMI 2.1 HFR/48Gbps FRL/DSC/HDR10+/VRR，USB-C DP Alt模式，4K60，甚至还支持混合显示，组建个HTPC非常趁手。

锐龙7000处理器内部组成示意图，还是老样子，两个CCD搭配一个IOD，最多16核心，当然也可以一个CDD搭配一个IOD，最多8核心。

值得一提的是，CCD对IOD每时钟周期的写入仍然是16Byte、读取仍然是32Byte，因此单个CCD的情况仍然存在带宽减半的问题，还好实际性能不受影响。

Zen4 CCD部分面积仅为70平方毫米，相比Zen3 80.7平方毫米缩小了13.3％，但晶体管数量增加了足足56.6％，从41.5亿个来到65亿个，集成密度超过9280万个/平方毫米，增加了超过80％！

Zen4 IOD部分面积122平方毫米，和上代125平方毫米相差无几，但晶体管从20.9亿个增加到34亿个，增幅达62.7％，集成密度则增加了66.7％。

三、全新的AM5接口：战至2025年+

Intel经常被诟病“科技以换接口为本”，AMD则良心的多，所以这次Zen4架构换接口，绝对是一件大事。

AMD的一个AM4接口已经用了6年时间不但贯穿整个Zen家族历史，最早可以追溯到2016年的第七代APU Bristol Ridge，那时候的CPU架构还是推土机家族呢。

这么长的时间里，AM4接口经历了五代CPU架构、4代制造工艺，覆盖超过125款处理器和500款主板，在整个x86历史上也是无出其右者了。

由于新技术、新形势的需要，AMD迎来了全新的接口AM5，变化前所未有：

首次从PGA针脚式改成LGA触点式，一如Intel多年来的设计，共有1718个触点，再也不用担心拔出散热器带出处理器了，但主板插座要更小心对待，避免针脚弯折。

最大功耗空间放宽到230W，为超频和未来升级留足余地。

首次支持DDR5内存、PCIe 5.0总线，下次再变应该要到DDR6内存了，官方承诺新接口规划支持到2025年乃至更远。

惊喜的是，无论处理器封装尺寸，还是主板插座尺寸和孔距，AM5全都保持不变，AM4平台散热器可以继续正常使用，从而降低升级成本。

AM5接口在供电方面也做了大量的改进设计，包括增强全平台电源管理的通信总线，在多个板载调节器之间用于持续监控电压、电流、温度、功耗的高速双向通信，用于系统健康状态监控的的电压调节器，优化多种负载条件下省电的扩展电源状态定义。

锐龙7000系列处理器提供三种TDP级别，分别为65W、105W、175W，它们各自对应的插座最大允许功耗、峰值电流、稳定电流各不相同。

比如TDP 170W的顶级型号，插座功耗可承受230W，峰值电流可达225A，持续电流也有160A。

当然这都是极限值，一般情况根本碰不到。

AM4平台到AM5平台的变化，说白了就是锐龙7000相比锐龙5000的变化。

四、全新的DDR5内存：EXPO一键超频、注意新频率比例

Zen4架构是AMD第一次支持DDR5内存，而且不同于Intel 12/13代酷睿同时兼容DDR5/DDR4，AMD直接抛弃了DDR4。

事实上，移动端Zen3+架构的锐龙6000U/H系列就是这么干的。

这么激进是相当考验勇气的，需要提前N年预判内存行业变化，准确切入，一旦碰上新内存性能、普及问题，可能会遭遇灭顶之灾。

还好，DDR5经过第一代产品的铺垫，性能优势正在展现，价格也逐渐趋于主流合理化。

除了常规支持DDR5，AMD这次还带来了EXPO技术，对标Intel XMP，简单说都是一键超频。

搭配锐龙7000处理器、AM5 600系列主板，AMD EXPO可以实现对DDR5内存的一键超频，并提供完整的超频参数设定，玩家可以自由调节。

官方号称，EXPO DDR5-6000对比JEDEC DDR5-5200，可以在1080p分辨率下获得最高11％的性能提升，同时延迟降低到大约63ns。

其中，《CSGO》性能提升可达11％，《德军总部：新血脉》可有7％，《F1 2021》、《英雄联盟》可得6％，《GTA V》能获益5％。

目前已支持AMD EXPO技术的内存品牌包括威刚、海盗船、金邦、芝奇、金士顿，首发就会推出至少15款产品，预设频率起步就有6000MHz，最高达到6400MHz。

AMD还强调，EXPO技术完全免费授权，不会向主板、内存厂商收取任何费用。

AMD还要求内存厂商，所有符合EXPO标准的内存产品，必须提供一份详细的报告，包括组件、完整时序表、软硬件稳定性信息等等，方便玩家识别选购。

如果你要对内存进行超频，注意这次有一个特别的变化。

Zen3时代，IF总线频率FCLK、内存控制器频率UCLK、内存频率MCLK需要保持在1:1:1，也就是完全同频，才能获得最佳性能，甜点内存频率为DDR4-3600。

Zen4时代，IF总线频率设置为自动就行了，只需保持内存控制器、内存同频即可，IF总线与内存的分频则固定为2:3。

官方支持最大内存频率为DDR5-5200，此时对应的默认IF总线频率为1733MHz。

最佳内存频率是DDR5-6000，此时RAM内存频率3000MHz、IMC内存控制器频率3000MHz、IF总线频率2000MHz。

当然，如果你需要的是更高内存带宽，就不必在意这套规则，单独拉升内存频率就好了。

内存频率超过6000MHz之后，内存控制器、内存频率比例将切换到1:2，IF总线频率则会在1850-2100MHz之间波动。

五、全新的600系芯片组：首次至尊版、双芯片之前搞错了

首先吐槽一下，AMD锐龙时代的主板芯片组命名直接模仿Intel的套路，并“截胡”竞品的后路，导致名字过于接近，非常难以识别，着实闹心。

最典型的，B550是AMD的，B560是Intel的……

Zen4时代，AMD芯片组进入600系列，并首次迎来Extreme(至尊版)，包括X670E、B650E，还有普通的X670、B650。

X670E、X670已经随同第一批处理器上市，B650E、B650则将在10月份跟进。

之前我们曾误以为X670、B650是单芯片，X670E、B650E是双芯片，其实并非如此。

事实上，X670E、X670都可单可双，双芯片时通过PCIe 4.0 x4通道再串联一个以提高扩展性，B650E、B650则都是单芯片。

最核心的区别，就是E系列显卡、M.2 SSD都支持PCIe 5.0，非E系列显卡、M.2 SSD只有其一支持PCIe 5.0。如何设定，就看主板厂商的选择了。

具体来说，锐龙7000处理器支持28条PCIe 5.0，其中16条用于显卡、8条用于NVMe SSD(可拆分为两组x4)、4条用于连接芯片组。

支持四个USB 3.0 10Gbps(包括C口)，和一个通用目的USB 2.0，就是USB BIOS刷新之用的。

X670E、X670支持12条PCIe 4.0，可配置给Wi-Fi网卡、蓝牙、NVMe SSD等设备。

支持8条PCIe 3.0，可以有五种不同配置：8条PCIe 3.0、6条PCIe 3.0加2个SATA 6Gbps、4条PCIe 3.0加4个SATA 6Gbps、2条PCIe 3.0加6个SATA 6Gbps、8个SATA 6Gbps。

USB接口有固定的8个USB 3.0 10Gbps、12个USB 2.0，剩下的可选三种不同配置：2个USB 3.1 20Gbps、1个USB 3.1 20Gbps加2个USB 3.0 10Gbps、4个USB 3.0 10Gbps，总带宽都是40Gbps，等于一个USB4。

如果再串联一个X670E或者X670，上述扩展直接翻倍，具体配置就更加灵活了。

B650E、B650支持8条PCIe 4.0、4条PCIe 3.0，后者也可配置为2条PCIe 3.0加2个SATA 6Gbps、4个SATA 6Gbps。

USB接口固定支持4个USB 3.0 10Gbps、6个USB 2.0，还可选1个USB 3.1 20Gbps或2个USB 3.0 10Gbps。

六、结语：承上启下奠定未来

展望未来，Zen4 3D V-Cache缓存版、Zen4c都在路上。

Zen4 3D V-Cache就像锐龙7 5800X3D那样加入堆叠缓存，游戏性能必将再次大杀四方，预计有锐龙9 7950X3D、锐龙9 7900X3D、锐龙7 7800X3D三款型号。假如每个CCD都堆叠64MB缓存，总缓存最多可达208MB。

Zen4c则用于EPYC霄龙产品线，面向高密度云服务和计算领域，使用台积电4nm工艺，最多可达128核心256线程，而且也会叠加3D V-Cache缓存，总容量预计达到恐怖的1152MB。

Zen5家族也风雨欲来，包括4nm的Zen5、Zen5 3D V-Cache，3nm的Zen5c。

据说，Zen5会非常激进，整体架构推倒重来，升级力度自然远超Zen4，再加上新工艺的辅助，着实令人期待。

一如前文所述，Zen4并没有彻底改变，而是在Zen3的基础上优化完善，打通其任督二脉，加入全新的DDR5内存、PCIe 5.0总线，再辅以台积电5nm工艺的晶体管密度、频率红利加持，成就新一代平台。

可以说，Zen4的主要使命就是承上启下，深化Zen3，迎接Zen5！

AMD Zen4架构深入揭秘！49％性能提升从何而来？

【本文结束】如需转载请务必注明出处：快科技

责任编辑：上方文Q

文章价值打分

当前文章打分 0分，共有 0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#AMD #CPU处理器 #Zen 4 #架构 #锐龙 #锐龙9 7950X

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方
快科技(原驱动之家)官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

热门文章

换一波

好物推荐

换一波