万亿思考模型新速度！蚂蚁开源Ring-2.5-1T：IMO金牌水平，强；混合线性架构，快！

来来来，狠角色来给春节 AI 大模型大战升级了。

刚刚，蚂蚁集团正式发布了全球首个开源混合线性架构万亿参数模型 Ring-2.5-1T。

这次它在数学逻辑推理和长程自主执行能力上都练就了一身本领。

具体来说，它在 IMO 拿到了 35 分的金牌水平，CMO 更是轰出 105 分远超国家集训队线；任务执行方面，则在搜索、编码这些复杂任务上都能独当一面。

而且这次发布，打破了业界长期以来关于深度思考必然要牺牲推理速度和显存的 " 不可能三角 "。

以前大家默认模型要想逻辑严密、想得深，推理解码就得慢成龟速，显存开销还得爆炸。

但 Ring-2.5-1T 靠架构创新，成功实现在生成长度拉到 32K 以上时，让访存规模直接降到了 1/10 以下，同时生成吞吐量暴涨了 3 倍多。

所以它现在身上挂着两个极具反差感的标签，既是 " 开源界最聪明 " 的奥数大神，又是 " 跑得最快 " 的万亿参数思考者。

目前它已适配 Claude Code、OpenClaw 这些主流智能体框架，模型权重和推理代码也已经在 Hugging Face、ModelScope 等平台同步开放了。

混合架构让效率大幅提升

Ring-2.5-1T 之所以能打破深度思考必然牺牲推理速度这一行业魔咒，主要是因为其底层采用了混合线性注意力架构。

这种架构基于 Ring-flash-linear-2.0 技术路线演进而来。具体来说，其采用了 1:7 的 MLA（Multi-Head Latent Attention）配 Lightning Linear Attention 的混搭设计。

为了让模型在保持强大推理能力的同时实现线性级的推理速度，团队在训练上采用了增量训练的方式。

他们先把一部分原本的 GQA（分组查询注意力）层直接转化为 Lightning Linear Attention，这部分专门负责在长程推理场景下把吞吐量拉满；然后为了极致压缩 KV Cache，再把剩下的 GQA 层近似转换为 MLA。

但这还不够，为了防止模型表达能力受损，研究团队又专门适配了 QK Norm 和 Partial RoPE 这些特性，确保模型性能不降级。

经过这一番底层架构的重构，Ring-2.5-1T 直接利用线性时间复杂度的特性，完美解决了长窗口下显存爆炸的难题。

改造后，Ring-2.5-1T 的激活参数量从 51B 提升至 63B，但其推理效率相比 Ling 2.0 仍实现了大幅提升。

这意味着长程推理不再是那种 " 烧钱又烧显卡 " 的重资产操作，而是变得相当轻量化，彻底解决了深度思考模型通常推理慢、成本高的痛点。

当然，光跑得快没用，逻辑还得严密。在思维训练上，Ring-2.5-1T 引入了密集奖励机制。

这就像老师改卷子时不能只看最后的得数，还得死抠解题步骤里的每一个推导环节，会重点考察思考过程的严谨性，这让模型大幅减少了逻辑漏洞，高阶证明技巧也显著提升。

在此基础上，蚂蚁团队又给它上了大规模全异步 Agentic RL 训练，显著提升了它在搜索、编码这些长链条任务上的自主执行能力，让它从单纯的 " 做题家 " 变成了能真正下场干活的实战派。

Ring-2.5-1T 实战演练

接下来把 Ring 拉出来遛遛，我让 Gemini 专门设计了一道能把人脑干烧的抽象代数证明题。

这道题目考察的是群论，要求模型在一个有限群里证明非交换群的阶≥ 27，还得把中心阶和正规子群的底细给摸清。

Ring-2.5-1T 接招的姿势也是相当专业。它先是反手掏出 Cauchy 定理，接着就开始有条不紊地排雷，把阶为 1、3、9 这些只能是交换群的坑全给避开了。

而且它在证明非交换性的时候，不仅没被那种 "3^k 阶群肯定交换 " 的直觉给带偏，还直接把 Heisenberg 群甩出来当反例，可以说很有逻辑敏感度了。

整个实测看下来，它的逻辑推导严丝合缝。模型不仅把高深定理给吃透了，在处理这种长达好几步的逻辑链条时还没出半点纰漏，特别是对反例的运用直接把它的逻辑深度拉满。

这足以证明密集奖励训练确实让模型长了脑子，它处理这类硬核逻辑任务时的表现，完全是实战派的水准。

测完了硬核的数学难题，咱们再来看看这个实战派选手在系统级编程上，到底稳不稳。

这道代码实测题要求模型用 Rust 语言从零开始手写一个高并发线程池，模型得在不用任何现成库的情况下，靠 Arc、Mutex 和 Condvar 把任务分发逻辑给硬生生地搭出来。

不光得能跑，还得支持 " 优雅关机 "，意思就是主线程在退出的时侯，必须确保所有派发出去的活儿全干完，而且坚决不能出现死锁这种低级错误。

另外还得加个监控模块，万一哪天某个 Worker 线程直接崩溃了，模型得能自动发现并把线程重启，而且还没处理完的任务队列一个都不能丢，这非常考验模型对内存安全和并发底层的理解。

来看 Ring-2.5-1T 给出的这份代码，它的处理方式确实非常老练。它通过 panic::catch_unwind 精准捕获崩溃并配合一个独立的监控线程实现自动重启，这种设计巧妙避开了初学者最容易掉进去的死锁陷阱。

代码在所有权管理与异步通知上的逻辑清晰且老练，优雅关机部分通过活动线程计数与信号量唤醒机制配合，完美达成了任务全部清空的目标。

除了我们的实测，在官方 Demo 中，Ring-2.5-1T 还在 Claude Code 里自动开发出了一个微型版操作系统。

整个运行过程长达两个多小时，Ring-2.5-1T 交出了这样的成果：

这还没完，接下来 Ring-2.5-1T 还得继续丰富 TinyOS 的功能，实现好 bash 的功能，使得使用 qemu 可以登录到一个 bash 命令界面，以执行 ls、pwd、cat 等简单命令。

把统一模态做成可复用底座

除了在架构和推理上的大动作，蚂蚁集团在通用人工智能基模领域保持多线并进，同期发布了扩散语言模型 LLaDA2.1 和全模态大模型 Ming-flash-omni-2.0。

LLaDA2.1 采用了非自回归并行解码技术，彻底改变了传统模型逐词预测的生成范式，推理速度达到了 535tokens/s，在特定任务（如 HumanEval+ 编程任务）上的吞吐量甚至达到了更惊人的 892tokens/s。

这种架构不仅大幅提升了吞吐效率，也让模型具备了独特的 Token 编辑与逆向推理能力。它可以直接在推理过程中对文本中间的特定 Token 进行精准修正，或者基于预设的边界条件进行反向逻辑追溯。

这种灵活性在处理需要高频改写或复杂逻辑回溯的任务时，展现出了比传统自回归模型更强的适配性。

全模态大模型 Ming-flash-omni-2.0 则是在视觉、音频、文本的统一表征与生成上实现了重大突破。

它在技术底层打通了视觉、音频与文本的边界，通过全模态感知的强化与泛音频统一生成框架，让模型既具备博学的专家级知识储备，又拥有沉浸式的音画同步创作能力。

这种全能型架构，实现了极高响应频率下的实时感官交互。

这一大波技术更新背后的算盘很清楚，蚂蚁 inclusionAI 是想把这些能力做成可复用底座。

这就是要给行业打个样，给开发者提供一个统一的能力入口，以后想做多模态应用不用再到处找模型拼凑了，直接调这个现成的底座就行。

据称已经明牌的是，接下来团队还会继续死磕视频时序理解、复杂图像编辑和长音频实时生成这几个硬骨头。

这些其实都是全模态技术规模化落地的最后几道关卡，只要把长视频逻辑看懂、把复杂修图搞精、把音频生成弄得更丝滑，全模态 AI 就能在各种干活场景里真正爆发了。

蚂蚁这一套组合拳打下来，能感觉到他们在春节档这波华山论剑里真不是来凑热闹的，这一本本厚实的成绩单交出来，直接就把技术底蕴给亮透了。

这种从底层逻辑到实战执行的全面爆发，稳稳地证明了他们就是全球 AI 圈子里最顶尖的那一拨选手，展现出了第一梯队的水平。

蚂蚁现在的路数，已经跳出了单纯炫技的层面，他们正把这些压箱底的本事，变成大家能直接上手的底座方案。

大模型的华山论剑，门槛被蚂蚁卷得更高了。

开源地址

GitHub：https://github.com/inclusionAI/Ring-V2.5

Huggingface：https://huggingface.co/inclusionAI/Ring-2.5-1T

ModelScope：https://www.modelscope.cn/models/inclusionAI/Ring-2.5-1T

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签