量子位 5小时前
把RoPE扔掉,AI更能看懂长上下文!Transformer作者团队开源大模型预训练新方法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

针对大模型长文本处理难题,Transformer 架构的核心作者之一 Llion Jones 领导的研究团队开源了一项新技术DroPE

不仅无需昂贵的长上下文训练,就能实现无缝零样本上下文扩展;

且用 DroPE 重新校准模型所需预训练预算不到 1%。

这项技术被网友调侃为 "NoRoPE"(没有旋转位置编码)。

原因很简单,因为 DroPE 可以看作是一种丢弃位置嵌入来扩展上下文的方法。

那是怎么个 " 丢弃 " 法呢?

把位置嵌入当成临时训练工具

首先咱得先来搞懂什么是位置嵌入。

在 Transformer 模型中,有一种核心机制叫自注意力(Self-Attention),它能够让模型在读到一个词时关联到其他词,搞清楚谁和谁有关系。

但是,这种机制在并行计算时,会丢失文本序列原本的前后位置关系。

比如说,在这个机制中," 猫抓老鼠 " 和 " 老鼠抓猫 " 在计算上是一样的,这样大模型就分不清到底应该把谁放前边。

为了让模型清楚地知道谁在前谁在后,研究人员引入了位置嵌入(Positional Embedding)。

现在最流行的位置嵌入方法是RoPE(旋转位置编码),可以把它想象成一个句子指南针,能够帮助模型快速建立起对语序的感知,分清前后关系,让训练过程更稳定。

但是,RoPE 在长序列处理方面存在严重缺陷,RoPE 中的高频维度会因旋转角度快速饱和,导致位置编码失效;低频维度则因旋转角度变化过慢,同样无法准确表征位置信息。

而 DroPE 正解决了这一问题。

它把 RoPE 当成临时的训练工具。

在预训练阶段,借助 RoPE 来保证训练的稳定性和效率,为模型提供可学习的顺序感。

而到了推理阶段,则大胆地丢弃位置嵌入,并在原上下文长度下进行简短的重新校准。

DroPE 通过这种方式,成功解锁了模型的长上下文外推能力,实现了零样本扩展。

在不针对长文本进行额外训练的情况下,让模型能够处理更长的序列。

研究团队在多个模型上进行了实验,包括从零开始训练的 5M 参数模型、SmolLM 家族模型(360M/1.7B)以及 7B 参数的 Llama2-7B 等。

在 LongBench 基准测试里,DroPE 将基础 SmolLM 的平均得分提高了 10 倍以上。

在 NIAH 任务评估中,DroPE 模型的召回率高达 74.92%,大幅超越了传统的 RoPE 缩放方法。

即使在大规模的 Llama2-7B 模型上,仅使用 0.5% 的预训练预算进行重新校准,DroPE 也能在长上下文问答和总结任务中展现出卓越的性能。

Sakana AI

提出 DroPE 技术的团队,来自 Transformer 八子之一 Llion Jones 和前谷歌高级科学家 David Ha 创办的 Sakana AI。

听起来是不是有点熟悉?

不仅被英伟达老黄投资过,这家公司还造出了首个 " 出道 " 自带 10 篇完整学术论文的 AI 科学家The AI Scientist,由此走入了大家的视野。

就在前几天,Sakana 还发布了一项有意思的研究。

它们和 MIT 研究团队一起提出了数字红皇后Digital  Red  Queen)算法,借助大语言模型在经典编程游戏《Core War》中实现对抗性程序进化。

新程序需要击败所有前代程序以模拟红皇后动态。

实验显示,经多轮迭代,生成的 " 战士 " 代码不仅对人类设计的程序表现出更强通用性,还出现表型趋同、基因型多样的 " 趋同进化 " 现象,且能减少循环相克问题。

或许,这项研究还能为网络安全、药物设计这类需要互相抗衡的领域提供参考。

DroPE 论文地址:https://arxiv.org/abs/2512.12167

代码地址:https://github.com/SakanaAI/DroPE

参考链接:https://x.com/SakanaAILabs/status/2010508366574186825

DRQ 论文地址:https://arxiv.org/abs/2601.03335

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

量子位智库 2025 年度「AI 100」榜单正式开启招募!

和我们一起在日新月异的 AI 产品市场中厘清背后脉络,把握未来动向,找到真正代表中国 AI 实力的巅峰力量

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论