量子位 昨天
智能体「卷王」诞生!干活自动配结项报告,1.5张截图就把事说清了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在学校里做实验的时候,老师如何确定我们做了实验并且达到了预期效果呢?——最常见的做法是让学生写一份实验报告交上来。

现在,AI 智能体拿到一个任务以后如何检验执行的效果有没有达到预期呢?我们也可以让 AI 在执行任务的同时主动提交一份证据链报告,边做边收集任务完成的证据,自我检查是否符合预期,不符合就继续做。

在 LLM/VLM 驱动的智能体(Agent)的强化学习(RL)研究中,一直面临一个巨大的挑战:

你交给智能体一个任务,它干完了,但你不知道完成度如何。

为了确认它是否真的准确完成了任务,我们不得不建立庞大的" 监督系统 "来复核它的每一步操作。这种" 被动验证 "往往需要:

手工设计的复杂校验机制(比如:完全匹配的输出内容);

强大的轨迹级验证方法(比如:LLM/VLM-as-a-Judge 众投决策)。

这两种常见的先完成任务(task completion)再校验轨迹(outcome verification)的机制有以下缺点:

效率较低,人工设计的准则依赖预先编写好的评估脚本,难以简单泛化到新的任务(比如新的 APP);

轨迹带噪且上下文冗长,将整条轨迹送给 LLM/VLM 来评判很容易被无关的环境信息干扰,降低评分的可靠性;

依赖持续可观测环境的反馈信息,部分操作往往因为环境变化

(如页面刷新、操作过期)而导致验证失败。

针对以上问题,我们提出了一种简单的 RL 训练方法,让智能体自己成为 " 质检员 ",在尽可能减少校验器(Verifier)审核压力的同时,让智能体学会主动分解子目标并且留痕存证。

什么是 SmartSnap?

SmartSnap的核心思想是将 GUI 智能体从 " 被动的执行者 " 转变为 " 主动的自证者 "。

简单来说,智能体在完成任务的同时,还会主动收集、筛选并提交一份 " 证据快照集 "。

这份证据就像是任务的 " 结项报告 ",让验证者只需看一眼快照,就能确认任务是否成功。

三大核心突破:从 " 执行 " 到 " 自证 "1. 角色升级:双重使命的 " 自证代理 "

传统的智能体只负责 " 做(Execute)",而 SmartSnap 提出了 " 自证智能体 "(Self-Verifying Agent),赋予了它 " 自我验证(Verify)" 的第二使命。

它在操作过程中会像人类一样思考:" 为了证明我已经改好了设置,我需要把对开关状态截图并作为证据提交。"

2. "3C 原则 ":高效率的证据美学

为了避免给验证者造成信息过载,SmartSnap 提出了证据策展的3C 原则

完整性(Completeness)

证据必须足以证明任务已闭环。

简洁性(Conciseness)

不要冗长的视频,只要最关键的几张 " 定格 " 瞬间。

创造性(Creativity)

为了拿到证据,智能体甚至会主动执行 " 额外操作 "。例如,订完票后主动跳回订单页截图。

3. 强化学习驱动:GRPO+ 内在奖励反馈

我们利用 GRPO 算法对智能体进行了训练。通过精心设计的奖励机制(Intrinsic Reward Shaping),引导智能体在保证任务成功率的同时,不断提升证据的质量,尽可能减少奖励黑客行为(reward hacking)。

战绩显赫:小模型也不错

SmartSnap 的表现令人惊艳,它在 AndroidLab 等复杂的任务上提升显著:

性能飞跃

在不同规模的模型上,均实现了显著的性能提升(最高提升达 26.08%)。

以小博大

经过 SmartSnap 训练的中等参数模型(如 Qwen3-32B),在自证能力的加持下,其表现甚至持平DeepSeek-V3/Qwen3-235B 等开源大模型

通过感性分析,我们还观察到以下特点:

举证效率

平均每个任务只需提交1.5 张快照证据,极大地降低了后端的验证成本。

高效交互

智能体在训练过程中由于拟合少量的训练集而变得游刃有余,交互轮数不断减少。

知识欠缺

在部分 APP 上,我们观察到智能体存在反复、没有显著增益的表现,其领域知识的欠缺导致无法收敛到有效的解决方案(比如地图 APP 的各项复杂路径规划任务)。这表明模型需要依赖更多知识注入来指导探索。

为什么这简化了智能体 RL 训练的准备工作?

在手机端、OS 端这类环境的操作中,由于其时效性特点,传统的外部验证器很难精准捕捉瞬时的成功信号。

SmartSnap 就像是给智能体配上了一台取证相机。它不再需要事先对环境所有状态有一个预期的变化感知来撰写校验脚本,或者让裁判员模型盯着全程轨迹来仔细推敲,而是让智能体自己边做边收集必要的证据。

这允许我们基于合成的任务轻松拓展其训练场景,并针对有限的证据链来判断成功与否,让 RL 训练更加便捷。

面向未来

SmartSnap 的出现,标志着 GUI 智能体正从 " 蛮力执行 " 走向 " 认知协同 "。这种主动寻找证据的能力,不仅提升了 AI 的可靠性,更为未来大规模、低成本的 AI 部署铺平了道路。

未来的 AI,不仅要 " 能干 ",更要 " 可信 "。

论文标题:

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

论文地址:

https://arxiv.org/abs/2512.22322

代码地址:

https://github.com/TencentYoutuResearch/SmartSnap

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 效果 准确
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论