一、前言:当前最具性价比的 96GB/192GB AI 推理卡
凭借深耕多年的 CUDA 护城河,NVIDIA 在 AI 领域一度拥有 " 定价权 ",这也让这家公司的 GPU 及相关产品的售价逐渐脱离普通的消费者。
然而,随着硬件巨头 Intel 向 " 全栈 AI 公司 " 快速转型,这种绝对垄断正在被打破。
早在 2019 年,Intel 就发布了 oneAPI 跨架构编程模型,旨在让代码在 CPU、GPU、NPU 之间通用。这意味着开发者用一套代码即可调用 Intel 的所有算力,降低了迁移成本。

oneAPI 还允许开发者将原本仅能 NVIDIA CUDA 环境下运行的代码,通过其迁移工具(SYCLomatic)快速转换到 Intel 硬件上,为 Arc 系列显卡运行主流大模型打下了坚实的软件基础。

去年,Intel 发布了基于第二代 Xe2 架构(Battlemage)的专业级显卡— Intel Arc Pro B60。随后,以 Maxsun(铭瑄)、SPARKLE(撼与)、GUNNIR(蓝戟)为代表的核心伙伴正式将其推向全球市场,直指高性能 AI 推理领域。
Intel Arc Pro B60 与此前发布的消费级 Intel Arc B580 一样,都采用了完整的 BMG-G21 GPU 核心, 拥有 20 个 Xe2 核心,2560 个 FP32 单元(也可以说是 2560 个流处理器),20 个光追单元和 160 个 XXM AI 引擎。

每颗 BMG-G21 GPU 可提供 12.28 TFLOPS 的 FP32 浮点性能以及 197 TOPS 的 INT8 AI 性能。
在显存方面,Intel Arc Pro B60 设计了 192bit 位宽、19Gbps GDDR6 显存,显存带宽高达 456GB/s,显存容量则从 Intel Arc B580 的 12GB 直接翻倍到了 24GB。
与更贵的 NVIDIA RTX Pro 2000 相比,Intel Arc Pro B60 不论是显存容量还是显存带宽都比对手高出了 50%。
而在大模型推理中,显存容量决定了模型的参数上限,带宽则决定了吐字速度。
相比之下,NVIDIA 同样显存规格的 AI 加速卡,售价往往是 Arc Pro B60 的 3 至 4 倍。
随着 DeepSeek 等大规模 MoE 模型爆发的,Intel Arc Pro B60 成为了目前市面上构建 96GB(4 卡) 到 192GB(8 卡)超大显存池最具性价比的方案。

此次我们收到了来自于长城的世恒 X-AIGC 工作站,这台主机搭载了 Intel Xeon w5-3435X 处理器、256GB(4x64GB)DDR5 ECC 6400MHz 内存、2600W 金牌电源以及 4 张 Intel Arc Pro B60 24GB 显卡,共计 96GB 显存。
二、英特尔锐炫 Pro B60 和长城世恒 X-AIGC 工作站图赏

长城世恒 X 图形工作站包含 4 张 Arc Pro B60 显卡,不过为了运输安全,发货时,显卡会单独包装,并不会直接安装在主机里面。

Arc Pro B60 24GB 公版显卡正面照,双槽厚度,配备一个涡轮风扇。

显卡背面有全尺寸的金属背板,大量的片式聚合物电容也放在背面。

3 个 DP 2.1 和一个 HDMI 2.1 接口。

2 个 8Pin 供电接口放在了显卡尾端。

长城世恒 X 图形工作站。


超大的水冷头与水泵采用了分离设计,水泵在其中一根水冷管上。



将 4 张 Arc Pro B60 安装进去。

长城世恒 X 图形工作站与 4 张 Arc Pro B60 合体。
三、GPT-OSS-120B MXFP4 多并发性能测试:能满足千人同时在线聊天
GPT-OSS-120B 是 OpenAI 首个开源的千亿级参数模型,总参数 1170 亿 ( 117B ) ,被认为是测试多卡并联(Multi-GPU Parallelism)和分布式计算性能的标杆。
我们将 GPT-OSS-120B 模型下载至容器的 llmmodels 目录下,并开启 vLLM OpenAI API 服务,具体参数如下:

由于 120b 占用显卡超过 66GB,只能 4 卡并联进行测试,推理精度 bfloat16,单次批处理的最大 Token 总数为 8192,最大上下文长度(Token 数)为 3000,GPU 显存利用率上限为 90%(预留 10% 给系统),使用 MXFP4(混合精度 FP4)进行量化压缩。

vLLM OpenAI API 服务已经成功启动,下面单开一个窗口进行测试。

vLLM 版本是最新的 0.5.0,无法使用过去的 benchmark_serving.py 脚本进行测试,因此我们直接使用 vllm bench serve 命令,分别测试并发数 1,10,20,30,40,50,60,70,80,90,100 时的 AI 性能。

这是并发数为 1 的测试成绩日志,请求成功率 100%,在处理 120B 这种超大规模模型时,100 个请求全部成功且无一报错,说明 4 卡 Arc Pro B60 + MXFP4 运行测试时非常稳定。
TTFT ( 首字延迟 ) 仅为 91.37ms,说明 Arc Pro B60 预填充(Prefill)阶段的爆发力极强。
平均 ITL ( 逐词延迟 ) 为 32.01 ms,输出吞吐量则为 184tok/s。
下面是并发数从 1,10,20,30,40,50,60,70,80,90,100 的性能变化。

当并发数从 1~10 时: 系统的吞吐量呈现指数级增长,从 184 飙升至 613 tok/s。
不过并发数达到 60 之后,吞吐量为 701 tok/s,基本上已经达到了这套系统的极限,即便请求数增加到 100 之后,总吞吐量也就增加了 1% 左右。

整个测试期间,ITL ( 逐词延迟 ) 稳定得出奇,在达到并发 30 后,ITL 甚至随着并发增加而轻微下降。也就是说在高负载下,计算核心被填充得更满,单步推理的效率反而由于批处理效应而略微提升。

TTFT ( 首字延迟 ) 震动比较剧烈,并发数为 1 时仅有 91ms,并发数 20 时为 241ns,并发数 100 时已经到了 1344ms。
对于大多数用户而言,10 tok/s 即可拥有丝滑的访问体验,根据长城世恒 X 图形工作站 700tok/s 的极限性能计算,它可以承受 70 个用户同时请求回答。
再按 1:15 的活跃比计算,这台工作站可以支持 1000 人同时在线聊天。
四、Llama-3.1-8B 测试:比同价位 RTX Pro 2000 16GB 要快 50%
1、Llama-3.1-8B
Llama-3.1-8B 的显存需求只有 7GB 左右,因此不仅可以对 Arc Pro B60 24GB 进行单卡、双卡、4 卡测试,我们还能测试桌面版 RTX 5060 Ti 16GB 的推理性能并与之进行对比!

vLLM 0.5.0 正式建立了对 Intel Arc GPU 的原生支持,不再是以往那种简单的代码迁移,而是针对 Intel 的计算单元架构做了适配:
在并发数下,RTX 5060 Ti 16GB 的性能略胜于单卡 Arc Pro B60 24GB,但随着并发数的提升,Arc Pro B60 24GB 随着并发数的提升,Arc Pro B60 24GB 凭借大显存的优势开始逆袭,并发数 90 时,可以领先 RTX 5060 Ti 16GB 约 10% 左右。
4 张 Arc Pro B60 24GB 在低并发数时性能优势并不明显,但随着并发数的提升,特别是达到 100 并发后,4 张 Arc Pro B60 24GB 的性能几乎是单卡的 4 倍。
下面将精度降为 FP8,重复上面的测试,但将 N 卡换成 RTX Pro 2000。

与同价位的 NVIDIA RTX Pro 2000 16GB 相比,Arc Pro B60 24GB 几乎展现出了碾压性优势。
同样是 4 卡并行进行运算,4xArc Pro B60 24GB 比起 4xRTX Pro 2000 16GB 要强了 50% 左右,在并发数为 100 的情况下,凭借 96GB 大显存,Intel 的领先幅度甚至达到了 65%。
五、小结:用入门级 N 卡的价钱 买了接近旗舰级 N 卡的显存容量和推理性能
凭借 CUDA 生态的支持,NVIDIA 的 GPU 在特定的生产力与 AI 方面的确有无可比拟的性能优势。
但是在大模型时代,显存即正义。
96GB 显存意味着你可以本地运行参数量更大的模型,比如千亿级参数 GPT-OSS-120B、LLaMA-3-130B 对于 4 卡 Arc Pro B60 24GB 完全不是问题。
同样价位的 NVIDIA RTX Pro 2000 16GB,4 卡合计 64GB 显存,这是一个相对尴尬的显存容量,只能运行 70B 模型。在面对千亿级模型时必须极致量化压缩显存,且仅支持短上下文低负载推理,完全无法支持训练和微调。

而在性能方面,Arc Pro B60 24GB 几乎展现出了碾压性优势。
同样是 4 卡并行运算(Llama-3.1-8B-Instruct FP8),4xArc Pro B60 24GB 比起 4xRTX Pro 2000 16GB 要强了 50% 左右,在并发数为 100 的情况下,凭借 96GB 大显存,高负载(Batch 100)下,Intel 方案达到了 2110 Tokens/s,而同样价位的 NVIDIA 方案仅为 1279 Tokens/s。
Intel 的领先幅度超过了 65%。
在运行 1200 亿参数的 GPT-OSS-120B 时,Arc Pro B60 24GB 在预填充(Prefill)阶段展现出了极强的爆发力,并发数为 1 的时候,Mean TFT ( 首字延迟 ) 仅为 91.37ms。
当并发数达到 60 之后,4 张 Arc Pro B60 24GB 的吞吐量超过了 701 tok/s,能满足千人同时在线聊天。
对于想要组建高性能本地 LLM 推理站的企业而言,5000 元的 Arc Pro B60 24GB 显然是更具性价比的选择。
要知道 NVIDIA 类型算力的 24GB 专业卡,其售价几乎是 Arc Pro B60 24GB 的 4 倍左右。
很简单的结论:Arc Pro B60 24GB 能让用户以入门级 N 卡的价钱,买了接近旗舰级 N 卡的显存容量和推理性能。


登录后才可以发布评论哦
打开小程序可以发布评论哦