量子位 01-13
美团龙猫LongCat技术升级!新注意力机制解码速度快10倍,还能处理1M超长文本
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

256K 文本预加载提速超 50%,还解锁了 1M 上下文窗口。

美团龙猫LongCat系列新年出招,发布全新稀疏注意力机制 LoZA(LongCat ZigZag Attention)

新技术集中火力,重点解决长文本任务的理解、算力难题。

相比于 LongCat 系列之前的全注意力MLA 机制,LoZA 只改了一半的核心模块。

但模型长文本能力从 256K 扩展到 1M,解码速度还快了不少。

甚至比同类型的 Qwen-3 模型表现还要好。

接下来看具体方案。

全注意力机制的算力瓶颈在于平方级的计算复杂度 O ( L ² ) ,这导致模型在处理长文本任务时对显卡要求高,还会出现推理延迟问题。

LoZA 的核心思路是专注于处理重要的内容,不重要的部分少花力气。

作为 LongCat 系列的核心技术升级,LoZA 主要是在原来的 MLA 机制上做改造。

具体分两步。

首先,给模型里的多头潜在注意力模块 MLA 做一个全局 " 筛查 ",找出哪些模块可以被改造。

在原来的 MLA 架构中,每个 MLA 模块都是处理注意力的核心单元,现在的新方案是给每个模块配一个可学习权重 α。

α 值越高,说明该模块额全注意力计算越关键,一旦简化就容易丢性能;α 值越低就意味着模块的可替代性强,即便换成更轻量的计算方式,对整体的理解能力影响也不大。

在训练过程中,团队冻结模型其他参数,只更新 α 的梯度,通过这种专门的校准训练让模型自主学习 α 值,然后按 α 值从小到大排序,找出那些稀疏化后不影响性能的 MLA 模块,也就是后续的优化目标。

随后,将找出的 50% 低性能模块换成更轻巧的流式稀疏注意力 SSA

这样就形成了一种交错结构,团队将这种结构称为ZigZag

SSA 的计算复杂度是线性的 O ( L · S ) (S 为稀疏窗口大小,固定为 1024Token),远低于全注意力的 O ( L ² ) 。

所以这种交错结构让模型既不会因为过度简化而变笨,又能把计算复杂度降到线性级别,省不少算力。

为了让模型在关注局部细节的基础上不忽略整体逻辑,LoZA 还设计了一个1024Token 稀疏窗口

每个窗口里有 1 个负责抓整体关联的 " 全局块 " 和 7 个负责盯附近内容的 " 局部块 ",单块大小为 128Token。

这样的改造也不需要从头训练,在中期训练阶段就能完成,成本也比较低。

从测试数据来看,LoZA 的表现也不错,主要是" 更快 "的同时" 没变笨 "

速度上,要是处理 128K 上下文,解码速度直接比原来快 10 倍;

256K 上下文,模型预加载(读文本过程)速度快了 50%,后续解码阶段生成内容时还能省 30% 的算力,相当于同样的硬件,现在能同时处理两倍多的长文本任务。

这也让 LongCat-Flash-Exp 解锁了 1M 上下文窗口。

性能上,LoZA 也没因为简化而缩水。

处理回答问题、写代码这类日常任务时,和原版 LongCat-Flash 持平;处理长文本任务时,表现反而更好。

比如在 MRCR 测试里,反超了同样能处理 1M 长文本的 Qwen-3 模型,还更稳定。

接下来,团队还计划让 LoZA 支持动态稀疏比例

短文本场景自动多用全注意力保证精度,长文本场景自动增加稀疏模块提升效率,甚至适配多模态模型处理长视频、长图文内容。

好一个新年新气象!

论文地址:https://www.alphaxiv.org/abs/2512.23966

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

量子位智库 2025 年度「AI 100」榜单正式开启招募!

和我们一起在日新月异的 AI 产品市场中厘清背后脉络,把握未来动向,找到真正代表中国 AI 实力的巅峰力量

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

龙猫 美团 核心技术
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论