快科技 2 月 12 日消息,智谱发布新一代大模型 GLM-5 之后,摩尔线程立即宣布,在旗舰级 AI 训推一体全功能 GPU MTT S5000 上完成了 Day-0 全流程适配与验证,第一时间提供支持。
MTT S5000 是摩尔线程专为大模型训练、推理及高性能计算设计的全功能 GPU 智算卡,基于第四代 MUSA 架构 " 平湖 ",原生适配 PyTorch、Megatron-LM、vLLM、SGLang 等主流框架。
它早在 2024 年就已经低调推出,但是具体造型、参数、性能一直没有对外公开,非常神秘。


这次在宣布适配 GLM-5 的同时,摩尔线程首次公布了 MTT S5000 的部分参数和性能,非常惊喜!
据悉,MTT S5000 单卡配备多达 80GB 显存,显存带宽高达 1.6TB/s,对比上代 MTT S4000 分别提升了 67%、113%,多卡间的互联带宽也有 784GB/s。
它完整支持从 FP8 到 FP64 的全精度计算,而且是国内最早原生支持 FP8 精度的训练 GPU 之一,配置了硬件级 FP8 Tensor Core 加速单元。
FP8 相比 BF16/FP16 可将数据位宽减半、显存带宽压力降低 50%、理论计算吞吐量翻倍,并全面支持 DeepSeek、Qwen 等架构,训练性能可提升 30%以上。

MTT S5000 的单卡 FP8 AI 算力最高可达 1000 TFLOPS,首次达到 PFLOPS 级别,也就是每秒 1 千万亿次计算。
相比之下,MTT S4000 的算力为 INT8 256 TOPS、BF16 128 TFLOPS、FP32/64 32/64 TFLOPS。
据业内人士称,MTT S5000 实测性能可以对标 NVIDIA H100,尤其是在多模态大模型微调任务中,部分性能更是超越 H100,甚至开始接近最新的 Blackwell 架构。
2026 年 1 月,智源研究院基于 MTT S5000 千卡集群,完成了前沿具身大脑模型 RoboBrain 2.5 ( 数千亿参数 ) 的端到端训练与对齐验证,MTT S5000 表现出了与 H100 集群极高的结果一致性,练损失值 ( loss ) 差异仅为 0.62%,整体训练效果甚至实现小幅超越。
另据互联网厂商的场景实测,MTT S5000 在典型端到端推理及训练任务中,性能可以达到 NVIDIA H20 的 2.5 倍左右。

目前,基于 MTT S5000 的夸娥万卡集群已经落地,浮点运算能力达到 10Flops ( 每秒 1 千亿亿次计算 ) ,在 Dense 稠密模型训练中 MFU 达到 60%,在 MoE 专家模型中维持在 40%左右,有效训练时间占比超过 90%,训练线性扩展效率达 95%。
基于原生 FP8 能力,它能完整复现顶尖大模型的训练流程,Flash Attention 算力利用率超过 95%,多项关键指标均达到国际主流水平。
值得一提的是,MTT S5000 在集群通信层面采用独创的 ACE 技术,将复杂通信任务从计算核心卸载,大幅提升模型算力利用率 ( MFU ) 。
实测显示,MTT S5000 从 64 卡扩展至 1024 卡,系统的线性扩展效率保持在 90%以上,训练速度随算力增加几乎同步倍增。


MTT S5000 在推理场景同样表现优异,比如在 2025 年 12 月,摩尔线程联合硅基流动基于 MTT S5000 完成了对 DeepSeek-V3 671B 满血版的深度适配与性能测试。
实测单卡 Prefill 吞吐超过 4000 tokens/s,Decode 吞吐超过 1000 tokens/s,刷新了国产 GPU 的推理纪录。



登录后才可以发布评论哦
打开小程序可以发布评论哦