智东西 AI 前瞻(公众号:zhidxcomAI)
作者 | 江宇
编辑 | 漠影
智东西 AI 前瞻 7 月 8 日报道,昨日,阿里巴巴通义实验室正式开源其最新网络智能体 WebSailor,该智能体在多个高难度任务评测中刷新了开源系统的最好成绩,成为首个在 BrowseComp 等基准上逼近闭源系统能力的开源方案。
WebSailor 可在开放网页环境中自主跳转页面、查找信息、整合多源线索并完成推理,适用于处理路径不明确、问题模糊、需多步判断的复杂检索任务。
7 月 3 日,WebSailor 技术报告在 Hugging Face Papers 当日热度榜中排名第一,成为当天关注度最高的 AI 论文之一。
该项目的模型代码、训练方法与评测数据集也已同步在 GitHub 开源。
GitHub 地址:
https://github.com/Alibaba-NLP/WebAgent
一、评测表现:首次在 BrowseComp 任务中追近闭源模型
WebSailor-72B 版本在三大公开评测集上表现突出:
1、BrowseComp-en:12.0%
2、BrowseComp-zh:30.1%
3、GAIA(信息检索子集):55.4%
其中,BrowseComp 是由 OpenAI 发布的网页智能体评测集,覆盖 1266 个难度极高的检索任务,考察模型在开放网页上的搜索、筛选、整合和推理能力。
在 BrowseComp 等评测中,WebSailor 在开源智能体中实现断层领先,超过 DeepSeek R1 等开源方案,并首次在多个指标上逼近 Grok-3、Doubao-Search 等闭源方案。
值得注意的是,尽管训练聚焦高难任务,WebSailor 在面向初级问答的 SimpleQA 子集上也展现出泛化能力。
在该任务中,WebSailor-72B 取得 93.5% 的准确率,超过包括 WebDancer、WebThinker、DeepSeek 等多种方案。
WebSailor 在多个维度评测中均位列开源智能体第一,进一步缩小了与 OpenAI DeepResearch 等闭源系统的差距。
二、打造高不确定性任务集,提升 Agent 复杂推理能力
WebSailor 的核心突破在于其完整的后训练(post-training)方案,贯穿数据生成、冷启动调优、强化学习三大阶段:
1、高不确定性任务合成
通义团队构建了名为 SailorFog-QA 的问答数据集,旨在模拟高不确定性、模糊路径的信息检索任务,采用以下方式生成问题样本:
通过 " 随机游走 " 模拟网页跳转行为,在真实网页中构建复杂知识图谱;
利用 " 图结构采样 + 信息模糊化 " 处理,制造多跳、非线性、起点不明的问题,提升任务不确定性。
2、冷启动微调(RFT)
该智能体基于 Qwen-2.5(3B、7B、32B、72B)系列模型进行初始化,并通过对专家路径的压缩重构,生成清晰的中间推理步骤,从而增强其在复杂任务路径中的可控性与稳定性。
3、高效强化学习算法:DUPO
WebSailor 引入强化学习新算法 Duplicating Sampling Policy Optimization(DUPO),采用双阶段动态采样策略:
RL 前期:剔除过于简单的问题,集中训练高难度轨迹;
RL 训练中:重复采样困难轨迹结果,并加入当前批次以高效迭代。
该策略在提升效果的同时,将复杂 Agent 的强化学习训练速度提升 2 – 3 倍。
三、产品线布局:从基准构建,到原生浏览器智能体
WebSailor 是通义实验室 "Web 智能体 " 系列的第三项重要发布:
WebWalker(2025 年 1 月):主攻网页任务评测基准构建,提升评测标准化与复现性;
WebDancer(2025 年 5 月):关注自主检索 Agent 策略学习,强化信息搜集与自决能力;
WebSailor(2025 年 7 月):整合任务构建、调优与强化学习方法,首次在开源系统中实现对闭源系统的能力追近。
通义团队称,后续将继续扩展该系列,构建 " 基于浏览器的原生智能体框架 ",适配更多开放式、跨模态的复杂推理场景。
结语:朝 " 开源版 DeepResearch" 迈进一步
从大规模任务合成到高效强化学习,从 Benchmarks 构建到模型开源,WebSailor 正逐步进化。
虽然距离 OpenAI 等闭源系统仍有差距,但其在复杂任务上的大幅进展,正在为 " 开源 Agent 可用化 " 提供新的可能性。
如果说 DeepResearch 代表了闭源网络 Agent 的能力上限,那么 WebSailor 的诞生,或许意味着开源世界正开始接近那道分水岭。
登录后才可以发布评论哦
打开小程序可以发布评论哦