超能网 10-10
超能课堂(337):Arrow Lake架构解析,主打能耗比的新一代酷睿Ultra处理器
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

今天英特尔推出的酷睿 Ultra 200 系列处理器其实是由两款不同的核心所组成的,其一就是目前已经发布的Lunar Lake,它是面向轻薄低功耗平台的产品,有着极佳的能效比与电池续航时间。而另一款则是今天发布的 Arrow Lake,它将面向更广阔的市场,包括桌面平台的 Arrow Lake-S,面向移动主流和高性能平台的 Arrow Lake-H/HX,以及面向低功耗市场的 Arrow Lake-U。

Arrow Lake 架构概述

Arrow Lake 与 Lunar Lake 有着相同的新一代 CPU 内核,包括 Lion Cove P-Core 和 Skymont E-Core,所以它们被划为同一代产品,两者也是由多个模块组成并采用 Foveros 先进封装技术组合在一起,但除此之外两者其实就没啥相似的地方了。

Lunar Lake 是由计算模块和平台控制模块所组成,计算模块包含 CPU、NPU 和 GPU,内存控制器、媒体引擎、显示引擎、IPU 也在里面,基本上就是一个传统单芯片 CPU 没了 PCIe 控制器,而平台控制模块则包含 PCIe、USB、Thunderbolt 4、WiFi、千兆有线网络 MAC,此外还有安全模块,它的功能和传统的 PCH 没啥差异。Lunar Lake 还把两颗 LPDDR5 封装到 CPU 的 PCB 上让笔记本主板设计变得非常紧凑,同时还能提升内存频率并降低 40% 的功耗。

而 Arrow Lake 的结构则沿袭自 Meteor Lake,可以说 Arrow Lake 才是 Meteor Lake 真正的继任者,CPU 同样由计算模块、SoC 模块、图形模块、IO 模块这四大模块组成,也都用 Foveros 封装在基础模块上。此外 Arrow Lake 上也有一个填料模块,它的作用就把顶盖覆盖范围内没有运算模块的部分填满,因为模块和散热顶盖之间需要有充分接触,否则由于压力不同会对芯片造成损伤。

Arrow Lake 的计算模块是肯定与 Meteor Lake 上的不一样的,核心规模比采用相同内核的 Lunar Lake 大得多,最高能到 8P+16E。在 Lunar Lake 上,E-Core 并不挂在环形总线上,与 P-Core 通信要走 NOC 总线,也不能使用 P-Core 的 L3 缓存,所以英特尔是直接把它们叫作 LP E-Core 的。而 Arrow Lake 的 P-Core 与 E-Core 都在一个环形总线内,可共享最多 36MB L3 缓存。

Arrow Lake 的 SoC 模块大概就是 Meteor Lake 上的小改,里面的 NPU 依然是第三代的,不是 Lunar Lake 上的第四代 NPU,与 Meteor Lake 的 SoC 模块相比新增了对 PCIe 5.0 的支持,至于 LP E-Core,目前在今天发布的 Arrow Lake-S 桌面处理器上是没有的,其他的移动处理器不好说。显示模块使用的是与 Meteor Lake 相同的 Xe-LPG 架构,但规模减半,IO 模块应该是不一样的,因为桌面平台需要提供完整的 PCIe x16,而移动版只有 PCIe x8。

关于 Arrow Lake 各模块的制程工艺,计算模块用的是台积电 N3B,图形模块使用 N5P 工艺,SoC 和 IO 模块则是 N6 工艺,除了计算模块制程与 Meteor Lake 不一样外其他都是一样的。

接下来我们先来回顾一下 Lion Cove 和 Skymont 两个内核。

性能核:Lion Cove

现在 Meteor Lake 所用的 Redwood Cove 对于上代 Golden Cove 来说可以说是小修小改,但 Arrow Lake 与 Lunar Lake 上的 Lion Cove 改动还是蛮彻底的,首先它的缓存结构就有很大变化。在 L1 数据缓存与 L2 缓存之间加了一层缓存,原来的 L1 数据缓存现在变成了 L0 数据缓存,容量同样是 48KB,加载延迟从 5 周期降低到 4 周期;新增的 L1 数据缓存是 192KB,加载延迟 9 周期;Arrow Lake 的 L2 缓存是 3MB,比 Lunar Lake 的 2.5MB 更大,它们都比上代的 2MB 要大,但加载延迟从 16 周期降低到 17 周期。Lunar Lake 上的四个 P-Core 共享 12MB L3 缓存,而 Arrow Lake 则是 P-Core 与 E-Core 共享 36MB 缓存。

用于管理缓存的子系统数据转换后备缓冲区 ( DTLB ) 深度从 96 页增加到 128 页,以提高其命中率。地址生成单元 / 存储单元 ( AUG/STA ) 从 2 组增加到 3 组,这一改动使加载 / 存储管道的数量达到平衡,各有三个,而上两代都是三个加载与两个存储管道。

前段进行了重新设计,分支预测块增加了 8 倍,获取区块从以前的 64 字节增加到 128 字节,解码器由 6 个增至 8 个,微指令队数量 144 条目增加到 192 条目,微指令缓存从 4K 扩大到 5.25K,并让缓存读取带宽增加了 50%。这些改进的目的是为了能够改进代码转换和执行的性能和功耗。

Lion Cove 的乱序引擎划分成整数和矢量区域,都具有独立的确定和重命名功能,这样可以省下大量的硬件开销,并降低能耗提升性能。乱序引擎的分配 / 重命名从 6 个增加到 8 个,退出从 8 个增加到 12 个,深度指令窗口从 512 个增加到 576 个,执行端口从 12 个增加到 18 个。

整数执行引擎的 ALU 加法器从 5 个增加到 6 个,junp 单元从 2 个增加到 3 个,shift 单元从 2 个增加到 3 个,乘法器从单个 64 × 64 的单元变成了 3 个 64 位乘法器,这些改动能为复杂的操作提供更强大的算力。

矢量单元的 SIMD ALU 从 3 个增加到 4 个,拥有两个 4 周期延迟的 256 位 FMA,同事还有两个 256 位除法器,和前一代相比,单精度和双精度计算的吞吐量都有大幅提高。

超线程在 Arrow Lake 和 Lunar Lake 上都被移除了,并不是英特尔把超线程关闭了,而是直接移除了。其实英特尔做了两个版本的 Lion Cove,开启超线程能在相同芯片面积下增加 30% 的 IPC,但代价是增加 20% 的功耗,这在数据中心这种追求线程密度的产品上是很好的,但在客户端处理器上情况就不一样了,经过三代混合架构处理器的实践,已经证明了 E-Core 是比超线程更高效的多线程加速手段。

超线程并不是免费的,它需要额外的芯片面积,一个没有超线程的 Lion Cove 和一个开启超线程的 Lion Cove 相比,能效比提升了 5%,单位面积性能降低 15%,但把性能、功率、芯片面积全算起来效费比提升了 15%,再加上 Lunar Lake 是为低功耗设备而准备的,所以英特尔直接就删掉了这部分的电路,把节省出来的功耗和芯片面积来换取内核的更高时钟速度和 IPC。

频率控制也变得更为精细,此前处理器核心的频率变化步进是 100MHz,现在大幅缩小到 16.67MHz,这自然提高了能效,某些情况下甚至能达到更高的频率。

能效核:Skymont

当年英特尔在 Alder Lake 上引入的 Gracemont 架构 E-Core,IPC 是向 Skylake 看齐的,而 Arrow Lake 与 Luner Lake 上的 Skymont,它的 IPC 则是向 Raptor Cove 看齐,而这 Raptor Cove 就是现在 13/14 代酷睿里面的 P-Core。

Skymont 与上代 Crestmont 相比,整数性能提升了 38%,浮点性能提升了 68% 之多,只需要 1/3 功耗就能达到与 Meteor Lake 的 SoC 上两个 LP E-Core 同样的性能,同功率下单线程性能是原来的 1.7 倍,最大功率性能更是达到原来的两倍。

与 Raptor Cove 相比,Skymont 的单线程整数与浮点性能都高出 2%,达到了当时定下让 Lunar Lake 的 E-Core 性能匹配 Raptor Lake 的 P-Core 的设计目标。

再来看性能与功耗的对比曲线,Skymont 能用更低的功耗实现与 Raptor Cove 同等的性能,在上图中框起来的那个区间内,在最佳情况下,Skymont 只需要 60% 的功耗就可达到 Raptor Cove 的同等性能,在同功率下可实现 20% 的性能提升。当然了,Raptor Cove 的功率上限比 Skymont 高得多,所以整体性能上限也比 Skymont 更高,毕竟两者的定位完全不一样。

Skymont 的分支预测单元每周期预测范围从 64 字节翻倍到 128 字节,这加快了指令提取速度,现在最多可并行提取 96 个指令字节。解码方面,Skymont 每周期解码指令从 6 条增加到 9 条,比 Crestmont 提高了 50%,Uop 队列从 64 提高到了 96,这是 x86 历史上最宽最广的解码能力。

同时 Skymont 引入了 Nanocode 的新功能,它允许每一个解码集群可以独立处理多个微代码流,把类似的微代码段组合在一起,以实现更高的并行性。

乱序执行引擎的分配队列从 6 宽度增加到 8 宽度,退出队列从 8 宽度增加到 16 队列, 新增依赖中断机制,可有效降低延迟。重排序缓冲区从之前的 256 个条目扩展至 416 个条目,物理寄存器文件、保留站和加载 / 存储缓冲区也得到扩展,这些改动可提高并行性和降低延迟。

执行引擎的调度端口增加到 26 个,拥有 8 个整数 ALU,3 个 Jump 接口,每周期可执行 3 个加载操作,这些均比上一代增加了 50%,提升了整体的并行处理能力。

矢量单元现在拥有 4 个 128 位浮点与 SIMD 矢量,这使得 Gigaflops 和 TOPs 算力直接翻倍,增加的执行单元有助于提升 AI 方面性能。FMUL、FADD、FMA 经过重新设计降低了延迟,FP 舍入现在支持硬件加速。

加载 / 存储管道数量从原来的都是两个变成了现在拥有 3 个加载管道和 4 个存储管道,L2 缓存 TLB 的大小从 3096 增加到 4192,Skymont 依然是四个核心共享 4MB L2 缓存,但现在 L2 缓存带宽番了一倍,这让核心之间通信速度翻倍,并降低了内存延迟并提高了数据吞吐量。

Arrow Lake 计算模块

虽然在 Lunar Lake 上 Lion Cove 与 Skymont 的性能提升相当明显,但到了 Arrow Lake-S 上由于是桌面处理器,所以功耗上限要高得多,实际上英特尔此前给出过性能与功耗曲线,两个新内核的 IPC 优势在低功耗区间优势较大,但随着功耗上升增幅就会减少,所以现在 Arrow Lake-S 给出的 IPC 提升其实是要比 Lunar Lake 时要小的,但对比现在的 13/14 代酷睿处理器,提升还是很明显的。P-Core 的 IPC 提升相对要少一些,Lion Cove 比 Raptor Cove 只有 9% 的提升,但 E-Core 的提升非常大,Skymont 对比 Gracemount 提升了 32% 之多。

Arrow Lake 计算模块内的核心排列也有所变化,从最初的 12 代酷睿开始,处理器内的 P-Core 集中放一边,而 E-Core 则集中放另一边的,到了 Arrow Lake 上,每个 E-Core 集群都会被两个 P-Core 左右夹着,这样设计的好处就是可以把发热量大的 P-Core 分散布置,这样就可把热源分散,有利于散热。

缓存方面,Arrow Lake 明显变得更大了,和 Raptor Lake 相比,L3 缓存的总容量依然是 36MB 没变,每组 E-Core 集群的 L2 缓存也是 4MB,但 P-Core 的 L2 缓存从 2MB 增大到 3MB,所以总 L2 缓存容量从 32MB 增大到 40MB,这使得 Arrow Lake 的 L2 缓存总容量比 L3 缓存还大。

Xe-LPG 架构 GPU 与媒体引擎

Arrow Lake 的核显与 Lunar Lake 不一样,没有使用最新的 Xe2 架构,依然是 Meteor Lake 上的 Xe-LPG,这是单纯的产品定位问题,Arrow Lake 无论桌面和移动平台,大多数都是搭配独显使用的,所以不需要那么好的核显。

当然了对比现在 Raptor Lake 处理器上的 Xe-LP 核显,Xe-LPG 也是有升级的,加入了光追单元,不过 Arrow Lake-S 的核显只有 4 组 Xe 核心,所以性能是有限的,但 Xe-LPG 支持 DP4a 指令,支持 XeSS 可提升游戏帧率。不过由于 XMX 引擎的缺失,所以 XeSS 的效率是肯定没 A 系列独显以及 Lunar Lake 上的核显那么高的。

多媒体引擎对比 Raptor Lake 也有升级,现在最高支持 8K 60Hz 10bit 的 HDR 视频解码以及 8K 120Hz 10bit 的 HDR 视频编码,支持包括 VP9、AVC、HEVC、AV1 以及其他的传统格式。

显示方面,最多可支持 4 屏输出,支持 HDMI 2.1、DP 2.1 以及完整的 eDP 1.4 的输出规范,分辨率最高支持一个 8K60 HDR,或者 4 个 4K60 HDR,或者是更高刷新率的 1080p 或者 1440p 360Hz。

平台 AI 算力 36 TOPS

Arrow Lake 上的 NPU 依然是 Meteor Lake 上的 NPU3,所以这里也不太多介绍了,由于 Arrow Lake-S 桌面平台,所以有更高的功耗冗余,NPU 算力从 11.5 TOPS 提升到了 13 TOPS。而 Arrow Lake 的核显只可提供 8 TOPS 的算力,CPU 的算力反而是最高的,有 15 TOPS,平台整体 AI 算力为 36 TOPS。

大家应该都发现 Arrow Lake 的 NPU 算力远没达到微软 Copilot+PC 的 40 TOPS 要求了,实际上英特尔此前和各软件开发商沟通过,即使以 Meteor Lake 现在的 NPU 算力,目前在市场上还没有被充分利用到。但 AI 也是未来的新兴趋势,所以英特尔还是把 NPU 放到了台式机处理器上。也考虑到对于台式机用户来说大多数会搭配高性能独显使用,所以目前 Arrow Lake 搭配的 NPU 是综合各种因素考虑得出的结果。

酷睿 Ultra 200S 系列处理器

说完了 Arrow Lake-S 的技术部分,接下来我们来看看酷睿 Ultra 200S 系列处理器,与以往一样,首发的只有 K 系列产品,包括酷睿 Ultra 9 285K、酷睿 Ultra 7 265K/KF、酷睿 Ultra 5 245K/KF。

和 14 代酷睿一样,酷睿 Ultra 9 是 8P+16E,酷睿 Ultra 7 是 8P+12E,酷睿 Ultra 5 则是 6P+8E,新的酷睿 Ultra 处理器依然包含 Thermal Velocity Boost、Turbo Boost Max 3.0 和 Turbo Boost 2.0 三层加速技术,当中酷睿 Ultra 9 是全部都支持的,而酷睿 Ultra 7 则不支持 TVB,而酷睿 Ultra 5 则只支持 Turbo Boost 2.0。

当然了对于用户来说,知道具体型号的不同核心的睿频频率就够了。最顶级的酷睿 Ultra 9 285K 处理器 P-Core 单 / 双核睿频频率是 5.7GHz,全核睿频频率 5.4GHz,E-Core 的全核睿频频率 4.6GHz。酷睿 Ultra 7 265K 的 P-Core 单 / 双核睿频频率是 5.5GHz,全核睿频频率 5.2GHz,E-Core 的全核睿频频率 4.6GHz。酷睿 Ultra 5 245K 的 P-Core 单 / 双核睿频频率是 5.2GHz,全核睿频频率 5.0GHz,E-Core 的全核睿频频率 4.6GHz。

核显方面,酷睿 Ultra 9/7 的核显频率是 2.0GHz,而酷睿 Ultra 5 的频率是 1.9GHz。

酷睿 Ultra 200S 处理器支持 CUDIMM 内存,与之前的 UDIMM DDR5 内存不同,CUDIMM 集成了时钟驱动器,不仅提升了内存的极限频率,还增强了系统的整体稳定性,让内存模块能够在更高频率下保持稳定的运行状态。酷睿 Ultra 200S 处理器最高支持 JEDEC 标准的 DDR5-6400 内存,如果使用支持 XMP 的 CUDIMM 内存的话频率可轻松达到 8000MHz+,支持 ECC,最大可支持单根 48GB 的内存,最大内存容量 192GB。

新一代处理器更换了 LGA 1851 平台,首发的只有 Z890 主板,扩展能力非常丰富,Arrow Lake-S 处理器本身可提供 20 条 PCIe 5.0 和 4 条 PCIe 4.0,和两个 Thunderbolt 4 接口,当中 SoC 模块可提供 4 条 PCIe 5.0 和 4 条 PCIe 4.0,IO 模块则可提供 16 条 PCIe 5.0 与两个 Thunderbolt 4,这 16 条 PCIe 可拆分成 x8+x8 或 x8+x4+x4,这比 12 到 14 代酷睿只能拆成 x8+x8 灵活多了,有效增加了 PCIe 5.0 M.2 接口的数量。

而 Z890 PCH 可提供 24 条 PCIe 4.0,平台可用 PCIe 通道数量多大 48 条,当中有 20 条是 PCIe 5.0。USB 接口和 SATA 数量与 Z790 没区别,最多 14 个 USB 接口,当中最多可提供 5 个 USB 20Gbps,10 个 USB 10Gbps,10 个 USB 5Gbps,SATA 接口数量最多 8 个。

预览

' ) ; Table ( ) .init ( { title: "Intel Z890/Z790 系列芯片规格对比 ", header: [ " 型号 ","Z890", "Z790" ] , width: '100%', columnWidth: 'MAX', // 表格单元宽度,"MAX" 最大内容显示,""AVG" 平均,"AUTO" 自动,指定 [ 15,16,20 ] id: tableid, data: [ [ "CPU 接口 ","LGA 1851","LGA 1700" ] , [ "CPU 超频 "," √ ", ] , [ " 内存超频 "," √ ", ] , [ "DMI","x8 4.0" ] , [ " 每通道 DIMM 数量 ","2", ] , [ " 显示输出数量 ","4" ] , [ "PCI-E 4.0 通道数 ","24","20" ] , [ "CPU PCI-E 配置 ","1x16+1x4

2x8+1x4

1x8+3x4","1x16+1x4

2x8+1x4" ] , [ "USB 接口数量 ","14" ] , [ "USB 3.2 接口 "," 最大 5 个 USB 20Gbps

最大 10 个 USB 10Gbps

最大 10 个 USB 5Gbps", ] , [ "SATA 6Gbps","8" ] , [ "RAID 支持 ","0,1,5,10" ] , [ " 整合无线网卡 ","Wi-Fi 6E" ] , ] } ) ;

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

lunar 酷睿 英特尔 芯片 wifi
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论