OpenAI Deep Research“被开源”：24小时成功复现，揭秘背后技术细节

编译 | 陈骏达

编辑 | Panken

智东西 2 月 8 日消息，24 小时极速复现 OpenAI Deep Research，还免费提供，这是开源 AI 社区 Hugging Face 做出的新贡献——一款开源的 AI 研究 agent，不仅能胜任整理信息写报告的复杂任务，而且仅开放一天就在严苛的通用 AI 助手基准测试中达到 55% 的准确率（OpenAI 原功能是 67%）。

DeepSeek-R1 在海外的现象级爆火，加速 OpenAI 推出免费的 o3-mini、Deep Research 等新模型与功能。然而，DeepSeek 开源策略掀起的前沿模型复现潮，让广大网友已经不满足于 OpenAI 的闭源系统，而是希望用更低成本的开源系统实现同样的效果。

OpenAI 的 Deep Research 能进行多步骤自主研究、信息深度整合以及复杂任务的处理，OpenAI 在博客中透露，Deep Research 由一个大模型和一个内部 Agent 框架组成。

复现时，Hugging Face 团队基于微软的开源 Agent 系统，并用代码 Agent 框架进行优化，让 Agent 用代码来规划、表达其行动，这对提升系统表现的作用显著。

该团队还提出，未来可通过增加支持的文件格式数量、提出对文件进行更细粒度处理的建议以及使用基于视觉的网络浏览器，来进一步提升系统表现。

项目链接：https://huggingface.co/blog/open-deep-research

试用链接：https://m-ric-open-deep-research.hf.space/

一、代码 Agent 架构可显著提升性能，运行成本降低 30%

Hugging Face 团队本次复现 OpenAI Deep Research 的核心任务便是 Agent 框架的搭建。Agent 框架是大模型上一层的架构，用于指导大模型进行浏览网页、阅读 PDF 等操作，并且按照一系列步骤组织上述操作。

将大模型整合进 Agent 框架可显著提升性能表现。在多项基准测试中，仅需使用基础的开源通用 Agent 架构 smolagents 库，就能将几款最近发布的前沿模型的表现提升至高 60 分。

▲ Agent 框架能显著提升大模型表现（图源：Hugging Face）

实际上，OpenAI 也在发布 Deep Research 功能的博客文章中强调，在知识密集型的高难度基准测试 "Humanity ’ s Last Exam" 中，Deep Research 的表现要明显好于独立运行的大模型。

在复现 Deep Research 功能时，Hugging Face 团队主要采用代码 Agent 来提升传统 Agent 架构的表现。先前研究显示，让 Agent 用代码来规划、表达其行动具有 4 个优势，尤其是在表达复杂的行动序列时。

1、在下方案例中，用代码来表示行动比 JSON 要简洁许多。这一序列需要运行 4 个并行流，每个流包含 5 个连续行动。在 JSON 中，你需要生成 20 个 JSON 块，每个块在单独的步骤中；而若用代码表示，只需 1 个步骤。

▲研究来源：Paper page – Executable Code Actions Elicit Better LLM Agents

平均而言，论文显示代码行动比 JSON 少 30% 的步骤，这意味着生成的 token 也相应减少。由于大模型调用通常是 Agent 系统的主要成本，这意味着 Agent 系统的运行成本降低了约 30%。

2、用代码来表示行动还能更方便地再利用常见库中的工具。

3、这种系统在基准测试中的表现更好，因为大模型在训练时广泛接触了代码数据，这种行动表达方式对它们来说更为直观。

4、更好的状态处理能力：在多模态任务中，如果需要存储图像、音频等内容后续使用，只需将其作为变量分配给状态。但在 JSON 中，必须让大模型在字典键中命名它，大模型后续能否理解和使用也还是未知数。

同时，Agent 系统需要配备正确的工具集，Hugging Face 的复现团队使用了微软研究院现成的的 Magentic-One Agent，试图用最低的复杂性获得最高的性能。工具集中包含 2 个工具：

1、一个网络浏览器。虽然像 Operator 这样的完整网络浏览器交互需要达到全性能，但 Hugging Face 团队目前先使用了一个简单的基于文本的网络浏览器，作为概念验证。

2、一个简单的文本检查器，能够读取大量文本文件格式。

二、远超开源 SOTA 系统，还有三大提升空间

为测试上述系统的性能，Hugging Face 团队使用了 GAIA 这一全面且难度较高的 Agent 测试基准，涉及许多基于大语言模型的挑战。

下方是一个测试集中的难题：

" 在 2008 年的画作《乌兹别克斯坦刺绣》中展示的水果，哪些被用作 1949 年 10 月邮轮早餐菜单的一部分，该邮轮后来被用作电影《最后的航行》的浮动道具？请以逗号分隔列出这些水果，按照画作中从 12 点位置开始按顺时针方向排列的水果顺序，使用每个水果的复数形式。"

此类问题对 Agent 系统提出了多个挑战：识别水果需要用到多模态能力；搜集信息时需要理解信息间的相互依赖关系；输出回答时需要按照指定的格式。此外，系统还需将问题解决的轨迹按正确顺序串联起来。

解决此问题需要高级规划能力和严格的执行，这两个领域在使用时单独使用大模型时会遇到很多困难。

在 GAIA 的公共排行榜上，GPT-4 在没有任何 Agent 设置的情况下，连 7% 的验证集分数都达不到。但通过 Deep Research，OpenAI 在验证集上达到了 67.36% 的分数，提升了一个数量级。

▲ Deep Research 在 GAIA 上的成绩（图源：OpenAI）

在 Hugging Face 24 小时的复现尝试中，代码 Agent 的使用对系统的整体表现提升明显。之前，Magentic-One 是 GIGA 测试中表现最佳的开源系统，Hugging Face 团队将其表现从 46% 提升至 55.15%，这种性能提升主要归功于让 Agent 以代码的形式编写其动作。

当切换到以 JSON 而不是代码编写动作的标准 Agent 时，相同设置的验证集性能会立即下降到 33% 左右。

Hugging Face 团队认为，未来此类系统还可以从三方面进行改进：

1、扩展可读取的文件格式数量。

2、提出对文件进行更细粒度处理的建议。

3、替换为基于视觉的网页浏览器（开源地址）。

结语：DeepSeek 掀起的开源热潮持续

DeepSeek 凭借其透明、可操作性强的发布与开源模式，成为了全球 AI 模型开源的最佳实践案例之一。

Hugging Face 本次对 OpenAI Deep Reasearch 的复现，也正是顺应了 DeepSeek 掀起的开源热潮。这一趋势有望让前沿 AI 模型的技术进步惠及更广大的研究群体。

来源：Hugging Face

宙世代

一起剪

相关标签