蚂蚁集团百灵大模型开源新成员:Ling-2.6-flash 正式上线

蚂蚁集团旗下的百灵大模型系列于今日迎来重要更新，Ling-2.6-flash 正式向全球开发者开放。为了适配差异化的硬件环境并降低部署门槛，该模型同步推出了 BF16、FP8 以及 INT4 等多个精度版本，旨在为开发者提供更具弹性的推理选择。

作为一款总参数量达到 104B、激活参数量为 7.4B 的 Instruct 模型，Ling-2.6-flash 在正式官宣前，曾以 "Elephant Alpha" 的匿名身份在 OpenRouter 平台先行测试。在为期两周的试运行中，研发团队吸收了大量真实反馈，对模型进行了针对性优化，显著增强了中英文自然切换的流畅度，并使其在主流编程框架中的适配表现更加出色。

技术亮点 : 混合架构与极致效率

Ling-2.6-flash 的核心竞争力集中体现在其独特的架构设计与极高的运行效率上 :

混合线性架构 : 通过底层的计算优化，模型展现了极佳的推理速度。在 4 卡 H20 环境下，其推理速度最高可达 340tokens/s。在 Prefill（预填充）吞吐指标上，更是达到了 Nemotron-3-Super 的 2.2 倍，大幅缩短了响应延迟。

出色的 " 智效比 ": 研发团队在训练过程中对 Token 效率进行了深度校准。评测数据显示，完成同等质量的任务，Ling-2.6-flash 仅需消耗约 15M tokens，这一数值仅为同类竞品的十分之一，极大地降低了商用成本。

场景深耕 : 定向增强智能体能力

针对当前大模型应用最广泛的 Agent（智能体）场景，Ling-2.6-flash 进行了专项强化。无论是在复杂的工具调用、逻辑多步规划，还是最终的任务执行力上，该模型都表现稳健。在 BFCL-V4、SWE-bench 等多项行业主流评测中，即便面对激活参数规模更大的模型，Ling-2.6-flash 依然能够维持相近甚至达到行业顶尖（SOTA）的水平。

目前，开发者已可通过 Hugging Face 和 ModelScope（魔搭社区）获取该模型的开源资源，进一步探索其在各类行业应用中的潜力。

宙世代

一起剪

相关标签