推理大模型如何提升效率?Salesforce AI Research 开源神器两连发——
Elastic Reasoning和Fractured Sampling。
Elastic Reasoning 用 " 想多少、答多少 " 替代了 " 想到哪算哪 ",让模型在预算范围内思考更合理,输出缩短 30%,同时保持(甚至提高)了准确性。
Fractured Sampling 让模型 " 少想早答 ",重新定义了思维链推理的成本 - 性能前沿,使 LLM 能够在更低的计算开销下实现强大的推理。
这两种方案显著提高了数学和编程任务的准确率,在推理预算紧张时依然表现出色。
Elastic Reasoning:首次实现 " 思考 - 解题 " 分开管预算
当前的推理大模型在处理任务时往往需要生成长的 Chain-of-Thought(CoT)推理链,效果虽好,但开销很大。
在预算有限的情况下,Elastic Reasoning 提出了一种新的 " 思考分段法 ":把推理流程显式划分为思考部分和解题部分,为它们分别分配 token 预算。
通俗地讲,让大模型每次生成时,不再一股脑 " 想到哪说到哪 ",而是在限定的 " 思考预算 " 用完后,强制结束思考,用剩下的预算生成解答。
这种 " 精打细算 " 的策略使得最终答案不会因为思考未完就被截断,保证了结果完整性和可靠性。
为了让模型学会在 " 思考被截断 " 时也能答对题,Salesforce 团队设计了成本可控强化学习采样(Budget-constrained rollout)的方法,训练后的模型能够很快学会如何利用不完整的思考进行作答。
用该方法训练出的模型 E1-Math-1.5B 在训练步数下的验证准确率和奖励曲线如图,训练数据集可见文末。
模型效果也非常亮眼:
E1-Math-1.5B 在 Math 数据集上能控制预算作答,同时相比于 L1 使用更少的训练资源,保留更多的模型性能(35.0%正确率,大幅领先 L1 27.1%)
在 Codeforces 竞赛中,E1-Code-14B 达到了1987rating(96.0% 分位),媲美 O1 模型。
在不设预算时,由于训练后模型 thinking 质量提高:平均 token 使用大幅减少,推理更高效:AIME 上减少32.1%,LiveCodeBench 上减少37.4%。
Fractured Chain-of-Thought:三维碎片化采样,推理效率拉满
和 Elastic Reasoning 基于相同的只用部分推理链就能得出正确答案,没必要等到完整的 CoT 生成完再做判断的观察。
Fractured Sampling 则从推理的采样策略下手——将完整的推理链条在时间维度上打碎,探索 " 提前终止思考也能答对 " 的可能性。
该方法沿三条维度进行采样控制:
推理路径数 n:采样 n 条不同的思考
每条路径的解答数 m:每条思考生成 m 个最终答案
思考深度 H:每条推理链在多个阶段 " 提前停想 " 生成 H 个不同答案。
尤其是新提出的思考深度 H,在不同的 " 思考深度 " 上采样,形成多组 " 碎片化思考 + 答案 ",再综合判断哪个最靠谱。
在 DeepSeek-R1 系列模型上对 Fractured Sampling 进行实验,结果如下:
Pass@K 表示在生成样本集中存在的正确预测比例。
单独分析 n,m,H 的 test time scaling,结果显示,在多个推理数据集上,最 " 物超所值 " 的是增加 H(思考深度的采样)以更少的 tokens 换来更高的准确率。
意味着 H 维度相比于 n 和 m 能更高效得达到比较好的性能。
在实际场景中还能将 n、m、H 联合进行采样,通过动态分配采样的维度,从而极大提升模型的准确率。
除了提升 Pass@K,Salesforce 团队还进一步测试了 Best-of-N 和利用该采样策略进行早停的应用潜力,都呈现出不错的效果。
与标准采样设置 H=1,m=1 相比,H=1,m=4 的采样平均准确率略有提升(61.6%vs.60.4%)。
有趣的是,仅将 H 维度增加到 H=16,m=1 也带来了轻微的提升(61.4%vs.60.4%),说明改变 H 通常比改变 m 在提高准确率方面更有效。
实验证明,用该采样策略进行早停能够保持模型精度,在某些情况下还能提高精度—— DeepScaleR-1.5B-Preview 实现了 2.9% 的提升。
在计算效率方面,相比标准生成,早停能将生成的 token 数量减少约 20%。
以上工作均已开源。
Elastic Reasoning:https://github.com/SalesforceAIResearch/Elastic-Reasoning
E1 models :https://huggingface.co/collections/Salesforce/elastic-reasoning-682b4bba108d6ea0a8bab275
Fractured Chain-of-Thought:https://github.com/BaohaoLiao/frac-cot
论文链接 1:https://arxiv.org/pdf/2505.05315
论文链接 2:https://arxiv.org/pdf/2505.12992
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦