快科技 12 月 25 日消息,近日知名工程师 Jeff Geerling 完成了一项挑战,利用 macOS 26.2 最新的系统特性,将四台 M3 Ultra Mac Studio 成功合体,打造出一台拥有 1.5TB 统一内存的 AI 计算集群。
这次集群成功的关键在于 macOS 26.2 引入的一项核心功能 RDMA over Thunderbolt 5,通过 Thunderbolt 5 接口,允许一台 Mac 直接读取另一台的内存,无需 CPU 干预。

在 Geekbench 6 的多核测试中,该集群轻松超越了 Dell Pro Max with GB10 和 Framework Desktop,双精度浮点数性能更是达到了 1TFLOPS 以上,而闲置功耗低于 10W。

在 AI 推理方面,单机运行 Llama 3.2 3B 模型时,每秒可处理 154.6 个 token;在运行大型 Llama 3.1 70B 模型时,每秒可维持 14.1 个 token,这两个测试的性能都远超其他对手。


此外,在尝试运行 DeepSeek R1 671B 超大型模型时,其他系统均无法正常运行,而 Mac Studio 集群凭借其 1.5TB 的统一内存,完成了这一挑战。

RDMA over Thunderbolt 5 在这个 AI 集群中发挥了关键作用,在启用 RDMA 后,内存访问延迟从 TCP 的 300 微秒降至 50 微秒以下。


在使用 exo 系统测试 Qwen3 235B 时,四台设备每秒可处理 31.9 个 token,比 llama.cpp TCP 快了一倍以上;DeepSeek V3.1 更是达到了每秒 32.5 个 token。

虽然 RDMA 表现出色,但在高负荷时偶尔会出现系统崩溃的情况

另外值得注意的是,由 Mac Studio 组成的 AI 集群总硬件成本约为 40000 美元(约合人民币 28 万元),相比其他两个平台,这一价格更贵。


登录后才可以发布评论哦
打开小程序可以发布评论哦