针对大模型长文本处理难题,Transformer 架构的核心作者之一 Llion Jones 领导的研究团队开源了一项新技术DroPE。
不仅无需昂贵的长上下文训练,就能实现无缝零样本上下文扩展;
且用 DroPE 重新校准模型所需预训练预算不到 1%。

这项技术被网友调侃为 "NoRoPE"(没有旋转位置编码)。
原因很简单,因为 DroPE 可以看作是一种丢弃位置嵌入来扩展上下文的方法。

那是怎么个 " 丢弃 " 法呢?
把位置嵌入当成临时训练工具
首先咱得先来搞懂什么是位置嵌入。
在 Transformer 模型中,有一种核心机制叫自注意力(Self-Attention),它能够让模型在读到一个词时关联到其他词,搞清楚谁和谁有关系。
但是,这种机制在并行计算时,会丢失文本序列原本的前后位置关系。
比如说,在这个机制中," 猫抓老鼠 " 和 " 老鼠抓猫 " 在计算上是一样的,这样大模型就分不清到底应该把谁放前边。

为了让模型清楚地知道谁在前谁在后,研究人员引入了位置嵌入(Positional Embedding)。
现在最流行的位置嵌入方法是RoPE(旋转位置编码),可以把它想象成一个句子指南针,能够帮助模型快速建立起对语序的感知,分清前后关系,让训练过程更稳定。
但是,RoPE 在长序列处理方面存在严重缺陷,RoPE 中的高频维度会因旋转角度快速饱和,导致位置编码失效;低频维度则因旋转角度变化过慢,同样无法准确表征位置信息。

而 DroPE 正解决了这一问题。
它把 RoPE 当成临时的训练工具。
在预训练阶段,借助 RoPE 来保证训练的稳定性和效率,为模型提供可学习的顺序感。
而到了推理阶段,则大胆地丢弃位置嵌入,并在原上下文长度下进行简短的重新校准。
DroPE 通过这种方式,成功解锁了模型的长上下文外推能力,实现了零样本扩展。
在不针对长文本进行额外训练的情况下,让模型能够处理更长的序列。

研究团队在多个模型上进行了实验,包括从零开始训练的 5M 参数模型、SmolLM 家族模型(360M/1.7B)以及 7B 参数的 Llama2-7B 等。
在 LongBench 基准测试里,DroPE 将基础 SmolLM 的平均得分提高了 10 倍以上。
在 NIAH 任务评估中,DroPE 模型的召回率高达 74.92%,大幅超越了传统的 RoPE 缩放方法。

即使在大规模的 Llama2-7B 模型上,仅使用 0.5% 的预训练预算进行重新校准,DroPE 也能在长上下文问答和总结任务中展现出卓越的性能。

Sakana AI
提出 DroPE 技术的团队,来自 Transformer 八子之一 Llion Jones 和前谷歌高级科学家 David Ha 创办的 Sakana AI。

听起来是不是有点熟悉?
不仅被英伟达老黄投资过,这家公司还造出了首个 " 出道 " 自带 10 篇完整学术论文的 AI 科学家The AI Scientist,由此走入了大家的视野。

就在前几天,Sakana 还发布了一项有意思的研究。
它们和 MIT 研究团队一起提出了数字红皇后(Digital Red Queen)算法,借助大语言模型在经典编程游戏《Core War》中实现对抗性程序进化。
新程序需要击败所有前代程序以模拟红皇后动态。

实验显示,经多轮迭代,生成的 " 战士 " 代码不仅对人类设计的程序表现出更强通用性,还出现表型趋同、基因型多样的 " 趋同进化 " 现象,且能减少循环相克问题。
或许,这项研究还能为网络安全、药物设计这类需要互相抗衡的领域提供参考。
DroPE 论文地址:https://arxiv.org/abs/2512.12167
代码地址:https://github.com/SakanaAI/DroPE
参考链接:https://x.com/SakanaAILabs/status/2010508366574186825
DRQ 论文地址:https://arxiv.org/abs/2601.03335
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
量子位智库 2025 年度「AI 100」榜单正式开启招募!
和我们一起在日新月异的 AI 产品市场中厘清背后脉络,把握未来动向,找到真正代表中国 AI 实力的巅峰力量
一键关注 点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦