256K 文本预加载提速超 50%,还解锁了 1M 上下文窗口。
美团龙猫LongCat系列新年出招,发布全新稀疏注意力机制 LoZA(LongCat ZigZag Attention)。
新技术集中火力,重点解决长文本任务的理解、算力难题。

相比于 LongCat 系列之前的全注意力MLA 机制,LoZA 只改了一半的核心模块。
但模型长文本能力从 256K 扩展到 1M,解码速度还快了不少。
甚至比同类型的 Qwen-3 模型表现还要好。
接下来看具体方案。
全注意力机制的算力瓶颈在于平方级的计算复杂度 O ( L ² ) ,这导致模型在处理长文本任务时对显卡要求高,还会出现推理延迟问题。
LoZA 的核心思路是专注于处理重要的内容,不重要的部分少花力气。

作为 LongCat 系列的核心技术升级,LoZA 主要是在原来的 MLA 机制上做改造。
具体分两步。
首先,给模型里的多头潜在注意力模块 MLA 做一个全局 " 筛查 ",找出哪些模块可以被改造。
在原来的 MLA 架构中,每个 MLA 模块都是处理注意力的核心单元,现在的新方案是给每个模块配一个可学习权重 α。
α 值越高,说明该模块额全注意力计算越关键,一旦简化就容易丢性能;α 值越低就意味着模块的可替代性强,即便换成更轻量的计算方式,对整体的理解能力影响也不大。
在训练过程中,团队冻结模型其他参数,只更新 α 的梯度,通过这种专门的校准训练让模型自主学习 α 值,然后按 α 值从小到大排序,找出那些稀疏化后不影响性能的 MLA 模块,也就是后续的优化目标。
随后,将找出的 50% 低性能模块换成更轻巧的流式稀疏注意力 SSA。
这样就形成了一种交错结构,团队将这种结构称为ZigZag。
SSA 的计算复杂度是线性的 O ( L · S ) (S 为稀疏窗口大小,固定为 1024Token),远低于全注意力的 O ( L ² ) 。
所以这种交错结构让模型既不会因为过度简化而变笨,又能把计算复杂度降到线性级别,省不少算力。

为了让模型在关注局部细节的基础上不忽略整体逻辑,LoZA 还设计了一个1024Token 稀疏窗口。
每个窗口里有 1 个负责抓整体关联的 " 全局块 " 和 7 个负责盯附近内容的 " 局部块 ",单块大小为 128Token。
这样的改造也不需要从头训练,在中期训练阶段就能完成,成本也比较低。
从测试数据来看,LoZA 的表现也不错,主要是" 更快 "的同时" 没变笨 "。
速度上,要是处理 128K 上下文,解码速度直接比原来快 10 倍;
256K 上下文,模型预加载(读文本过程)速度快了 50%,后续解码阶段生成内容时还能省 30% 的算力,相当于同样的硬件,现在能同时处理两倍多的长文本任务。
这也让 LongCat-Flash-Exp 解锁了 1M 上下文窗口。

性能上,LoZA 也没因为简化而缩水。
处理回答问题、写代码这类日常任务时,和原版 LongCat-Flash 持平;处理长文本任务时,表现反而更好。

比如在 MRCR 测试里,反超了同样能处理 1M 长文本的 Qwen-3 模型,还更稳定。

接下来,团队还计划让 LoZA 支持动态稀疏比例。
短文本场景自动多用全注意力保证精度,长文本场景自动增加稀疏模块提升效率,甚至适配多模态模型处理长视频、长图文内容。
好一个新年新气象!
论文地址:https://www.alphaxiv.org/abs/2512.23966
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
量子位智库 2025 年度「AI 100」榜单正式开启招募!
和我们一起在日新月异的 AI 产品市场中厘清背后脉络,把握未来动向,找到真正代表中国 AI 实力的巅峰力量
一键关注 点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦