蚂蚁集团旗下的百灵大模型系列于今日迎来重要更新,Ling-2.6-flash 正式向全球开发者开放。为了适配差异化的硬件环境并降低部署门槛,该模型同步推出了 BF16、FP8 以及 INT4 等多个精度版本,旨在为开发者提供更具弹性的推理选择。
作为一款总参数量达到 104B、激活参数量为 7.4B 的 Instruct 模型,Ling-2.6-flash 在正式官宣前,曾以 "Elephant Alpha" 的匿名身份在 OpenRouter 平台先行测试。在为期两周的试运行中,研发团队吸收了大量真实反馈,对模型进行了针对性优化,显著增强了中英文自然切换的流畅度,并使其在主流编程框架中的适配表现更加出色。

技术亮点 : 混合架构与极致效率
Ling-2.6-flash 的核心竞争力集中体现在其独特的架构设计与极高的运行效率上 :
混合线性架构 : 通过底层的计算优化,模型展现了极佳的推理速度。在 4 卡 H20 环境下,其推理速度最高可达 340tokens/s。在 Prefill(预填充)吞吐指标上,更是达到了 Nemotron-3-Super 的 2.2 倍,大幅缩短了响应延迟。
出色的 " 智效比 ": 研发团队在训练过程中对 Token 效率进行了深度校准。评测数据显示,完成同等质量的任务,Ling-2.6-flash 仅需消耗约 15M tokens,这一数值仅为同类竞品的十分之一,极大地降低了商用成本。
场景深耕 : 定向增强智能体能力
针对当前大模型应用最广泛的 Agent(智能体)场景,Ling-2.6-flash 进行了专项强化。无论是在复杂的工具调用、逻辑多步规划,还是最终的任务执行力上,该模型都表现稳健。在 BFCL-V4、SWE-bench 等多项行业主流评测中,即便面对激活参数规模更大的模型,Ling-2.6-flash 依然能够维持相近甚至达到行业顶尖(SOTA)的水平。
目前,开发者已可通过 Hugging Face 和 ModelScope(魔搭社区)获取该模型的开源资源,进一步探索其在各类行业应用中的潜力。


登录后才可以发布评论哦
打开小程序可以发布评论哦