正文内容评论(0)
一、全新的Zen4内核:前端大变、不一样的AVX-512
AMD锐龙7000系列的性能大家都见识过了,提升幅度可能没有预想得那么猛,但依然诚意十足。
锐龙9 7900X作为次旗舰,就足以碾压12代酷睿顶级灰烬版i9-12900KS。主流的锐龙5 7600X更是再次展现爆款潜质,直接让i5-12600K抬不起头来。
至于和Intel 13代酷睿究竟鹿死谁手,还要到这个月底才能见分晓了。
按照AMD的官方数据,Zen4相比于Zen3,同等性能下功耗可降低至多62%,同等功耗下性能可提升至多49%!
今天,我们就来深入了解一下Zen4架构、平台的革新之处,看看如此巨大的提升是从而来的。
先从Zen架构的历史讲起……
Zen4已经是AMD Zen系列架构的第四代(Zen/Zen+算作一代),对比来看它的改革、提升幅度都不是最大的,更多的是在Zen3基础上的一次深度优化增强,并在新工艺的加持下大幅提升频率,最高加速频率不但首次突破5GHz,而且跨越性地达到了5.7GHz!
对比四代架构,初代Zen的变革、提升幅度最猛(当然主要是推土机实在太弱了),Zen2是一次优化升级,尤其chiplet设计奠定未来基础,Zen3则是再一次革命性的大变,19% IPC提升也非常感人,Zen4再来个小步快跑就非常符合情理和逻辑了。
按照AMD的说法,Zen4架构的设计目标有三个方面:
一是性能,IPC(每时钟周期指令数或同频性能)和频率提升幅度都要达到两位数(超过10%);
二是延迟,通过增大二级缓存、改进缓存有效性,大幅降低平均延迟;
三是能效,在整个TDP(热设计功耗)范围内,显著降低动态功耗。
为了达成以上目标,Zen4对整个微架构体系进行了升级优化,包括前端、执行引擎、载入/存储单元、缓存、指令集等等,后边我们会一一讲到。
整体而言,Zen4架构的核心升级点包括:改进分支预测、增大OP指令作缓存、增大指令退役队列、增大整数/浮点寄存器文件、加深核心缓冲吞吐、浮点单元支持AVX-512指令、改进载入/存储单元、增大二级缓存。
前端部分变化较大,这里包括指令缓存、分支预测、解码器、指令缓存、微指令队列等模块。
Zen4架构重点改进了分支预测部分,包括每时钟周期预测两个跳转分支、一级缓存BTB(分支目标缓冲)增大50%达到1.5K条目、二级缓存BTB扩容从6.5K略增至7K。
另外,指令缓存(Op Cache)增大了约68%达到6.75K条目,每时钟周期可以完成多达9个宏指令(增加1个)。
不变的则是解码器每时钟周期发出4条指令、微指令队列每时钟周期分派6个整数+浮点指令。
执行引擎部分变化较小,尤其是每时钟周期10次整数、6次浮点的指令分派保持不变。
指令退役队列或者说ROB(重排序缓冲)从256条目增大25%至320条目,整数寄存器从192个增至224个,浮点寄存器从160个增至192个,缓存与核心之间的吞吐能力也提升了。
载入/存储单元部分,载入队列从72个增大至88个(22%),存储队列维持64个不变,二级缓存DTLB(数据页表缓冲)从2K条目增大了多达50%至3K条目,另外还减少了数据缓存端口的冲突几率。
也许有同学会问,很多模块都是不断增大、再增大,为什么不一步到位,从设计之初就做个大容量呢?
一方面,谁也无法精准预测每个模块多大容量下效率最好,而且不同模块之间需要彼此协调配合;
另一方面,更大容量意味着更多晶体管、更大核心面积、更高功耗、更高成本,需要在性能、能效之间做出妥协、寻求平衡。
缓存体系也做了优化,尤其是二级缓存,不但容量翻了一番,每核心来到1MB,还提升了速度。
同时,从二级缓存到三级缓存、从三级缓存到内存,都支持更多命中失败(outstanding miss),可以减少流水线的停顿,增加缓存回填带宽,提升整体效率。
不过整体缓存架构没变,一级缓存依然是32KB+32KB的每核心容量组合,三级缓存则继续每8个核心一组共享32MB。
AVX-512指令集或许是大家对Zen4最感兴趣的地方之一,毕竟在以往这是Intel处理器的专属技术,而且争议非常大,有人觉得它非常有用,有人觉得它只是徒增功耗,甚至成为极限烤机专用……
Zen4支持的AVX-512并非直接将Intel那套技术照搬过来(也不允许),而是选择了不一样的实现方式。
Intel处理器执行AVX-512指令时,是完整的512-bit通道(这也是该指令集命名的来源),但是AMD走的是256-bit通道,也就是砍了一半,因此遇到512-bit的指令就需要拆分成两个256-bit指令来执行。
事实上,AMD推土机家族、Zen家族在执行AVX-2 256-bit指令的时候,也是拆分成两个128-bit。这都是一脉相承的
AMD表示,这么做可以节省芯片面积,并且避免执行AVX-512指令时发热过大、频率下降的情况出现(峰值性能确有轻微损失),因为真正长达512-bit的指令并不多,就像以前256-bit的指令不够多。
Zen4支持的AVX-512指令一览并不是把Intel的全都搬了过来,而是选择性地加入,除了一些基础指令,特别值得注意的是用于AI加速的VNNI、BF16,这也是Intel之前宣传的重点。
VNNI是面向AI模型推理的矢量指令,可将多个8-bit或16-bit整数串联成512-bit,提升卷积神经网络常用的MAC(乘法累加)的速度。
另一个是BF16,面向AI加速,将双精度浮点FP32中的23位小数减少到7位,并保留1位符号、8位指数,结果与FP32相比范围相同,只是精度较差,但仍远高于单精度FP16。
按照AMD的说法,加入AVX-512指令集后,Zen4架构的FP32浮点推理多线程性能可提升1.31倍,VNNI INT8整数推理多线程性能可提升2.47倍!
另外,Zen4还增加了一些虚拟化、安全性方面的新指令,就不赘述了。
以上是Zen4、Zen3的具体变化对比,可以看到其中不少都维持不变,其他很多则只是数量/容量上的扩充,因此说Zen4就是个放大优化版的Zen3也没什么毛病。
值得注意的是,Zen4二级缓存、三级缓存的延迟甚至还略微加大了。
AMD宣称,Zen4 IPC平均提升了13%,这是在固定4GHz八核心情况下,通过22个项目对比Zen3得出的几何平均结果。
当然不同项目的变化幅度差异很大,比如说CPU-Z单线程只提升了1%(所以这个测试项目跑分变化不大),寒霜引擎游戏、《GTA V》、PUBG吃鸡、CineBench R23单线程这些项目提升也有限。
wPrime 1024M是变化最大的提升幅度达惊人的39%,另外像是Dolphin Web测试和《看门狗:军团》、《F1 2022》、《杀出重围:人类分裂》、《地铁:离去》等游戏的提升也很喜人。
13%的提升进一步划分,可以看到前端架构改进带来的提升幅度最大,其次是载入/存储单元、分支预测单元,而来自执行引擎、二级缓存的贡献相对较小。
这和前边架构分析的变化幅度是相符合的。
IPC提升之外,锐龙7000系列的频率也达到了前所未有的高度,旗舰锐龙9 7950X最高可以加速到5.7GHz(还有个5.85GHz fMax频率但官方一直保持缄默)。
当然,5.7GHz的频率只有单核心加速可以做到,AMD也公布了锐龙9 7950X在不同核心/线程下的最高加速频率,可以看到2核心可以到5.6GHz,8核心可以接近5.4GHz,16核心全开也能到5.2GHz。
13% IPC提升,加上频率拉到最高5.7GHz,锐龙7000的单线程性能提高了最多29%。
一个很容易被忽略的点,就是锐龙7000系列支持Eco模式,运行在更低的TDP,比如170W的可以低至105W或者65W,105W的可以低至65W。
AMD宣称,锐龙9 7950X 65W Eco模式下的性能,依然可以超过正常的锐龙9 5950X。
Eco模式未来会集成在主板BIOS的超频模块,可一键开启,还会集成在锐龙Master软件中。
有趣的是,得益于新的架构和工艺,Zen4单个核心加二级缓存总面积仅为3.84平方毫米,相比于Intel 7工艺的12代酷睿的7.46平方毫米,小了几乎一半,能效则高了几乎一半。
二、全新的IO Die:首次加入GPU、6nm新工艺给力
Zen2架构首次引入了chiplet设计,一般称之为小芯片、芯粒,一直延续至今,包括一两个CCD、一个IOD,前者包括CPU核心、缓存,后者包括各类控制器和输入输出,类似传统双芯片组的北桥。
Zen4 CCD部分从台积电7nm升级为台积电5nm工艺,IOD部分则从GF 12nm跃进到台积电6nm,自然有利于提高集成度、控制面积。很大程度上可以说,IOD这次的变化甚至比CCD还要猛。
首先,Zen4 IOD首次集成GPU图形核心,而且用上了最新的RDNA2架构,堪比移动端的锐龙6000U/H系列处理器,桌面APU都还没有这个待遇。
首次集成DDR5内存控制器,最高标准频率5200MHz(还可以继续超频),甚至还支持ECC(是否开启取决于主板)——DDR4确实没了,不要再想了。
首次集成PCIe 5.0控制器,可提供28条通道,可拆分为一路x16、三路x4。
首次支持USB Type-C接口,支持USB BIOS Flashback,可通过U盘和USB接口直接刷新BIOS,现在不少高端主板支持,以后就可以作为标配了,方便之极。
此外,Infinity Fabric(IF)高速互连总线也得到了优化,带来了新的FCLK(IF总线)、UCLK(内存控制器)、MCLK(内存)频率比例,后边内存环节细讲。
Zen4 IOD集成的GPU非常迷你,只有两个CU计算单元(128个流处理器)、四个ACE异步计算引擎、一个HWS硬件寄存器,打游戏什么的就别想了,它只是个“亮机卡”,用途有二:
一是作为基本的显示和视频输出,给那些不需要独显、只需小规模集显的环境,比如商务办公、商业嵌入式、CAD、CAM等领域。
二是作为备用显示设备,在独立显卡故障的时候,提供一个进入系统、排查问题的途径。
规格方面倒是挺齐全,尤其是显示与多媒体,支持H.264、H.265(HEVC)视频编解码,AV1视频解码,DisplayPort 2.0 UHBR10/DSC/HDR(AN独显都还没有呢),HDMI 2.1 HFR/48Gbps FRL/DSC/HDR10+/VRR,USB-C DP Alt模式,4K60,甚至还支持混合显示,组建个HTPC非常趁手。
锐龙7000处理器内部组成示意图,还是老样子,两个CCD搭配一个IOD,最多16核心,当然也可以一个CDD搭配一个IOD,最多8核心。
值得一提的是,CCD对IOD每时钟周期的写入仍然是16Byte、读取仍然是32Byte,因此单个CCD的情况仍然存在带宽减半的问题,还好实际性能不受影响。
Zen4 CCD部分面积仅为70平方毫米,相比Zen3 80.7平方毫米缩小了13.3%,但晶体管数量增加了足足56.6%,从41.5亿个来到65亿个,集成密度超过9280万个/平方毫米,增加了超过80%!
Zen4 IOD部分面积122平方毫米,和上代125平方毫米相差无几,但晶体管从20.9亿个增加到34亿个,增幅达62.7%,集成密度则增加了66.7%。
三、全新的AM5接口:战至2025年+
Intel经常被诟病“科技以换接口为本”,AMD则良心的多,所以这次Zen4架构换接口,绝对是一件大事。
AMD的一个AM4接口已经用了6年时间 不但贯穿整个Zen家族历史,最早可以追溯到2016年的第七代APU Bristol Ridge,那时候的CPU架构还是推土机家族呢。
这么长的时间里,AM4接口经历了五代CPU架构、4代制造工艺,覆盖超过125款处理器和500款主板,在整个x86历史上也是无出其右者了。
由于新技术、新形势的需要,AMD迎来了全新的接口AM5,变化前所未有:
首次从PGA针脚式改成LGA触点式,一如Intel多年来的设计,共有1718个触点,再也不用担心拔出散热器带出处理器了,但主板插座要更小心对待,避免针脚弯折。
最大功耗空间放宽到230W,为超频和未来升级留足余地。
首次支持DDR5内存、PCIe 5.0总线,下次再变应该要到DDR6内存了,官方承诺新接口规划支持到2025年乃至更远。
惊喜的是,无论处理器封装尺寸,还是主板插座尺寸和孔距,AM5全都保持不变,AM4平台散热器可以继续正常使用,从而降低升级成本。
AM5接口在供电方面也做了大量的改进设计,包括增强全平台电源管理的通信总线,在多个板载调节器之间用于持续监控电压、电流、温度、功耗的高速双向通信,用于系统健康状态监控的的电压调节器,优化多种负载条件下省电的扩展电源状态定义。
锐龙7000系列处理器提供三种TDP级别,分别为65W、105W、175W,它们各自对应的插座最大允许功耗、峰值电流、稳定电流各不相同。
比如TDP 170W的顶级型号,插座功耗可承受230W,峰值电流可达225A,持续电流也有160A。
当然这都是极限值,一般情况根本碰不到。
AM4平台到AM5平台的变化,说白了就是锐龙7000相比锐龙5000的变化。
四、全新的DDR5内存:EXPO一键超频、注意新频率比例
Zen4架构是AMD第一次支持DDR5内存,而且不同于Intel 12/13代酷睿同时兼容DDR5/DDR4,AMD直接抛弃了DDR4。
事实上,移动端Zen3+架构的锐龙6000U/H系列就是这么干的。
这么激进是相当考验勇气的,需要提前N年预判内存行业变化,准确切入,一旦碰上新内存性能、普及问题,可能会遭遇灭顶之灾。
还好,DDR5经过第一代产品的铺垫,性能优势正在展现,价格也逐渐趋于主流合理化。
除了常规支持DDR5,AMD这次还带来了EXPO技术,对标Intel XMP,简单说都是一键超频。
搭配锐龙7000处理器、AM5 600系列主板,AMD EXPO可以实现对DDR5内存的一键超频,并提供完整的超频参数设定,玩家可以自由调节。
官方号称,EXPO DDR5-6000对比JEDEC DDR5-5200,可以在1080p分辨率下获得最高11%的性能提升,同时延迟降低到大约63ns。
其中,《CSGO》性能提升可达11%,《德军总部:新血脉》可有7%,《F1 2021》、《英雄联盟》可得6%,《GTA V》能获益5%。
目前已支持AMD EXPO技术的内存品牌包括威刚、海盗船、金邦、芝奇、金士顿,首发就会推出至少15款产品,预设频率起步就有6000MHz,最高达到6400MHz。
AMD还强调,EXPO技术完全免费授权,不会向主板、内存厂商收取任何费用。
AMD还要求内存厂商,所有符合EXPO标准的内存产品,必须提供一份详细的报告,包括组件、完整时序表、软硬件稳定性信息等等,方便玩家识别选购。
如果你要对内存进行超频,注意这次有一个特别的变化。
Zen3时代,IF总线频率FCLK、内存控制器频率UCLK、内存频率MCLK需要保持在1:1:1,也就是完全同频,才能获得最佳性能,甜点内存频率为DDR4-3600。
Zen4时代,IF总线频率设置为自动就行了,只需保持内存控制器、内存同频即可,IF总线与内存的分频则固定为2:3。
官方支持最大内存频率为DDR5-5200,此时对应的默认IF总线频率为1733MHz。
最佳内存频率是DDR5-6000,此时RAM内存频率3000MHz、IMC内存控制器频率3000MHz、IF总线频率2000MHz。
当然,如果你需要的是更高内存带宽,就不必在意这套规则,单独拉升内存频率就好了。
内存频率超过6000MHz之后,内存控制器、内存频率比例将切换到1:2,IF总线频率则会在1850-2100MHz之间波动。
五、全新的600系芯片组:首次至尊版、双芯片之前搞错了
首先吐槽一下,AMD锐龙时代的主板芯片组命名直接模仿Intel的套路,并“截胡”竞品的后路,导致名字过于接近,非常难以识别,着实闹心。
最典型的,B550是AMD的,B560是Intel的……
Zen4时代,AMD芯片组进入600系列,并首次迎来Extreme(至尊版),包括X670E、B650E,还有普通的X670、B650。
X670E、X670已经随同第一批处理器上市,B650E、B650则将在10月份跟进。
之前我们曾误以为X670、B650是单芯片,X670E、B650E是双芯片,其实并非如此。
事实上,X670E、X670都可单可双,双芯片时通过PCIe 4.0 x4通道再串联一个以提高扩展性,B650E、B650则都是单芯片。
最核心的区别,就是E系列显卡、M.2 SSD都支持PCIe 5.0,非E系列显卡、M.2 SSD只有其一支持PCIe 5.0。如何设定,就看主板厂商的选择了。
具体来说,锐龙7000处理器支持28条PCIe 5.0,其中16条用于显卡、8条用于NVMe SSD(可拆分为两组x4)、4条用于连接芯片组。
支持四个USB 3.0 10Gbps(包括C口),和一个通用目的USB 2.0,就是USB BIOS刷新之用的。
X670E、X670支持12条PCIe 4.0,可配置给Wi-Fi网卡、蓝牙、NVMe SSD等设备。
支持8条PCIe 3.0,可以有五种不同配置:8条PCIe 3.0、6条PCIe 3.0加2个SATA 6Gbps、4条PCIe 3.0加4个SATA 6Gbps、2条PCIe 3.0加6个SATA 6Gbps、8个SATA 6Gbps。
USB接口有固定的8个USB 3.0 10Gbps、12个USB 2.0,剩下的可选三种不同配置:2个USB 3.1 20Gbps、1个USB 3.1 20Gbps加2个USB 3.0 10Gbps、4个USB 3.0 10Gbps,总带宽都是40Gbps,等于一个USB4。
如果再串联一个X670E或者X670,上述扩展直接翻倍,具体配置就更加灵活了。
B650E、B650支持8条PCIe 4.0、4条PCIe 3.0,后者也可配置为2条PCIe 3.0加2个SATA 6Gbps、4个SATA 6Gbps。
USB接口固定支持4个USB 3.0 10Gbps、6个USB 2.0,还可选1个USB 3.1 20Gbps或2个USB 3.0 10Gbps。
六、结语:承上启下 奠定未来
展望未来,Zen4 3D V-Cache缓存版、Zen4c都在路上。
Zen4 3D V-Cache就像锐龙7 5800X3D那样加入堆叠缓存,游戏性能必将再次大杀四方,预计有锐龙9 7950X3D、锐龙9 7900X3D、锐龙7 7800X3D三款型号。假如每个CCD都堆叠64MB缓存,总缓存最多可达208MB。
Zen4c则用于EPYC霄龙产品线,面向高密度云服务和计算领域,使用台积电4nm工艺,最多可达128核心256线程,而且也会叠加3D V-Cache缓存,总容量预计达到恐怖的1152MB。
Zen5家族也风雨欲来,包括4nm的Zen5、Zen5 3D V-Cache,3nm的Zen5c。
据说,Zen5会非常激进,整体架构推倒重来,升级力度自然远超Zen4,再加上新工艺的辅助,着实令人期待。
一如前文所述,Zen4并没有彻底改变,而是在Zen3的基础上优化完善,打通其任督二脉,加入全新的DDR5内存、PCIe 5.0总线,再辅以台积电5nm工艺的晶体管密度、频率红利加持,成就新一代平台。
可以说,Zen4的主要使命就是承上启下,深化Zen3,迎接Zen5!