量子位 7小时前
思维链可无限延伸了,MIT等打破大模型上下文天花板
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大模型的记忆墙,被 MIT 撬开了一道口子。

MIT 等机构最新提出了一种新架构,让推理大模型的思考长度突破物理限制,理论上可以无限延伸。

这个新架构名叫 Thread Inference Model,简称TIM。

TIM 配上专用推理引擎 TIMRUN,把推理过程变成类似树状的递归子任务结构,并动态修剪掉不再需要的子任务,就能让模型在输出窗口有限的情况下实现几乎无限制的长程推理。

当前所有顶尖大模型都面临一个尴尬的困境:上下文窗口限制。

但现实应用经常需要更长的推理链条,特别是当模型需要调用外部工具、处理复杂多步骤任务时,这个限制就成了致命短板。

传统解决方案要么是把任务切分给多个模型处理,要么是压缩历史信息,但这两种方法都会损失信息完整性。

TIM 团队提出了一个巧妙的洞察:

推理过程并不是线性的,而是像编程时一样具有递归结构。

例如当我们写代码时,通常只关注光标附近的代码、已完成函数的输入输出,以及待办事项,而不会记住每个函数的所有实现细节。

这种 " 潜意识 " 的信息过滤机制,正是 TIM 系统的核心灵感来源。

把推理过程 " 解剖 " 成任务树

TIM 最大的创新在于将推理轨迹建模为递归的子任务树,而不是传统的线性 token 序列。

每个任务单元包含四个关键组件:

思考过程(thought)

工具使用(tooluse)

子任务列表(subtasks)

结论(conclusion)

当模型处理复杂问题时,会自动将其分解为更简单的子任务,直到达到可以一步完成的叶节点任务。

再配合子任务剪枝机制,当一个子任务完成后,模型只保留其结论,而将具体的执行细节从工作内存中移除。

研究团队使用了一个固定大小的子任务栈来管理这个过程,当栈满时会弹出最早的子任务并将其从内存中剪除。

实验表明,这种机制可以减少超过 50% 的 KV 缓存使用,在 AIME 2024 数学竞赛任务上甚至达到了 64.1% 的剪枝率。

更重要的是,TIM 采用了结构化生成方式,整个推理过程被编码为一个 JSON 字典,通过约束解码确保输出格式的正确性。

这使得模型可以在一次推理中完成多次工具调用,避免了传统方法中反复提交消息列表的开销。

为结构化推理量身定制推理引擎

专门设计的推理引擎解决了 TIM 部署中的关键挑战——如何在有限的 GPU 内存和位置编码范围内实现 " 无限 " 推理。

TIMRUN 的核心技术突破在于动态内存管理和位置编码重用。

当子任务被剪枝后,系统不仅回收了 GPU 内存页,还重新分配了位置编码。

具体来说,被剪枝的 token 占用的位置会被后续的 token 重新使用,这样模型就能在固定的输出窗口限制下持续生成新内容。

在工具调用方面,TIMRUN 直接在运行时内部发起调用,而不是将参数发送回客户端。

当模型输出 "tool_result:" 时,TIMRUN 会自动提取参数、调用外部工具,并将响应直接添加到推理序列中。

这种设计将传统多智能体系统中 O ( n ² ) 的 token 成本复杂度降低到了 O ( n ) ,其中 n 是推理步骤数。

实验数据显示,即使进行 30 多次工具调用,TIMRUN 仍能保持稳定的吞吐量。

实验结果

研究团队在多个基准测试上验证了系统性能。

在 MATH500 数学推理任务上,TIM-8b 模型达到了 69% 的准确率,而在更具挑战性的 AIME 2024 上也取得了 46.7% 的成绩。

值得注意的是,使用子任务剪枝不仅没有降低性能,在某些任务上反而有所提升——这证明了保持精简的工作内存有助于模型聚焦于相关信息。

在需要多跳推理和工具使用的研究型任务上,Datacommons QA 基准测试 TIM 达到了 67.9% 的准确率,与使用 4000 多 token 任务特定提示的 Thread 方法持平,但 TIM 只需要简洁的系统消息和工具描述。

在更具挑战性的 BrowseComp 深度研究任务上,TIM-large 的成功率达到 7.8%,显著超过了 GPT-4o 的 1.9%。

效率方面,TIMRUN 在批量大小为 30 的情况下,吞吐量比基线系统 SGLang 提高了约 20%。

更重要的是,随着工具调用次数的增加,SGLang 的吞吐量急剧下降,而 TIMRUN 始终保持稳定,这要归功于其自动的上下文管理机制。

TIM 和 TIMRUN 的组合解决了技术难题,推理这件事,终于不再被窗口框死

论文地址:

https://arxiv.org/abs/2507.16784

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

mit 数学竞赛 物理 核心技术
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论