量子位 06-18
大模型也需要自我反思,上海AI Lab合成“错题本”让大模型数学成绩提升13.3%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大模型学习不仅要正确知识,还需要一个 " 错题本 "?

上海 AI Lab 提出了一种新的学习方式,构建了 " 错误 - 反思 - 修正 " 数据,让大模型仿照人类的学习模式,从错误中学习、反思。

结果,在 Llama3-8B 上,数学题的解题准确率平均提升了 13.3%。

这种方法名为 LEMMA(Learning from Errors for Mathematical Advancement),专门教大模型如何从错误中学习。

作者通过深入分析模型犯下的错误,构建了 " 错误 - 纠正 " 数据集,并利用反思机制,引导模型从错误的思路平滑过渡到正确的答案。

结果,模型不仅获得了准确率的提升,还获得了超强的自主纠错能力和泛化能力。

相关论文已发表于 ACL ’ 25 Findings。

用教师模型生成 " 错题本 "

作者首先系统分析了当前主流大模型在数学题中常见的七大类错误(如题意误解、公式混淆、计算失误等),发现这些错误在不同模型之间分布非常一致。

结果显示,大模型犯下最多的错误是误解题意,占比超过 40%,随后的两张常见错误类型是公式混淆和计算错误。

了解了模型都会犯哪些错误,接下来就可以有针对性地生成数据了。

过去,整个过程往往通过提高采样 Temperature(如 T=1.0 或 T=1.1)来完成。

但作者发现高 Temperature 采样会引入大量无意义的(如语义不通、毫无逻辑)错误,这种错误实际上是模型不会犯的。

作者认为,这种 " 已读乱回 " 式的错误,难以让模型真正提升自我纠错能力。

为此,LEMMA 采用了新的方法,让教师模型定向制造 " 学生会犯的错 ",构造 " 反思式 " 数据:

具体来说,LEMMA 提出了一种全新的反思数据构造策略,主要包括三个环节:

首先,分析学生模型常犯哪些错(如题意误解、公式误用、计算失误);

然后让强大的教师模型(GPT-4o),根据学生模型在每个问题上的错误类型,有针对性地故意引入特定错误;

之后,教师模型还会标出第一个错误发生的步骤,并生成反思和改正,确保模型学会 " 及时反思 "。

在反思和改正阶段:LEMMA 采用了两种更贴近人类思维的纠错方式——一是返回上一步,二是直接推倒重来。

引入第二种修正方式的原因在于,作者发现大模型在有的题目上出错的根本原因,是一开始就选择了低效的暴力解法,这样即使修正了某个中间的错误步骤,也会在后续的推理中犯错,不如从头开始选择更 " 聪明 " 的解法。

总的来说,LEMMA 构建的是 " 有目标、有指导、有反馈 " 的错误数据,让模型能像学生一样反思:" 我错在哪?应该怎么改?"

实验结果

对比多种主流反思修正方法,优势明显。

作者对比了包括 RefAug、RFT,ISC、S3C-Math 在内的八种主流 baseline 方法。

结果表明,LEMMA 在常见的数学任务上正确率更高,在 Llama3-8B 上准确率提升了最高达 13.3%。

并且,LEMMA 有效提升了模型的反思和自我修正能力。

在 MathChat 任务中,LEMMA 在 " 追问回答 " 和 " 错误修正 " 两大任务上领先 SOTA 方法(Dart-MATH)多达 6.3 和 4.1 个百分点。

同时,LEMMA 也显著减少了模型的常见错误。

在生成的数据上进行微调之后,LEMMA 一致地降低了各种错误类型,提升模型推理精度。

相比之下,SFT 虽然整体准确率提升,但却在某些错误类型(如公式混淆)上反而变差。

另外,作者进行的消融实验也充分验证了 " 教师模型错误引入(Error Aug. ) " 和 " 从头修正(Fresh & Restart)" 两个关键模块的有效性。

总之,LEMMA 提出了一种让大模型在数学推理中 " 从错误中有效学习 " 的创新方法,提升了模型对推理错误的识别与修复能力。

相比以往依赖高 Temperature 采样和简单拼接的反思数据合成方式,LEMMA 显著提高了 " 错误 - 反思 - 修正 " 数据的质量,提升了模型的数学推理能力。

论文地址:

https://arxiv.org/abs/2503.17439

代码仓库:

https://github.com/pzs19/LEMMA

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 上海 公式 lab
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论