智东西 昨天
微软开源AI基准测试:涵盖154项任务,20分钟全面评估,大幅缩短AI Agent开发周期
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

编译 | 尹明顺

编辑 | 漠影

智东西 9 月 14 日消息,据 VentureBeat 昨日报道,微软公布了一项名为 "Windows Agent Arena(WAA)" 的开创性基准测试。该测试用于在 Windows 操作环境中对 AI Agent 性能进行评估,旨在为 AI Agent 开发提速。

该论文发表在 arXiv.org 上。研究人员写道:" 大语言模型在 AI Agent 领域显示出巨大的潜力,能够在需要规划和推理的多模态任务中提升人类生产力和软件的可用性。" 同时还补充道:" 然而,在真实环境中衡量 AI Agent 性能依然是一个挑战。"

论文链接:https://arxiv.org/pdf/2409.08264

WAA 的创新点在于,它能够在微软 Azure 云科技中的多个虚拟机上进行并行测试,在短短 20 分钟内就可完成全面的基准评估。

此外,微软还将多模态 AI Agent Navi 引入测试,以展示 WAA 的能力。经检验,Navi 在 WAA 测试中任务完成的成功率为 19.5%,而人类的成功率是 74.5%。

▲ Windows Agent Arena(来源:Windows Agent Arena 页面)

一、涵盖 154 项任务测试,全面基准评估时长缩短至 20 分钟

Windows Agent Arena 提供了一个可复现测试环境,其中 AI Agent 与常见的 Windows 应用程序、网络浏览器和系统工具进行交互,模拟人类用户体验,继而帮助开发者评估和优化 AI Agent 的能力。

微软的研究人员写道,在真实环境中测试 Agent 性能仍然是一个挑战,这是因为大多数基准测试仅限于特定模式或领域(例如,纯文本、Web 导航、问答、编码);另外鉴于任务的多步骤顺序性质,完整的基准评估很慢(大约几天时间)。

WAA 的一个关键创新是能够在微软 Azure 云科技中的多个虚拟机上进行并行测试。论文解释称:" 我们的基准测试是可扩展的,可以在 Azure 中无缝并行处理,在短短 20 分钟内就可完成全面的基准评估。" 与传统可能需要数天的顺序测试相比,这极大地加快了 AI Agent 开发周期。

该测试包含了 154 个不同任务,涵盖编辑文档和电子表格(LibreOffice Calc/Writer)、浏览互联网(微软 Edge、Google Chrome)、Windows 系统任务(文件资源管理器、设置)、编码(Visual Studio Code)、观看视频(VLC 播放器)和实用功能(记事本、时钟、画图)。

▲涵盖的测试具体任务显示(图源:Windows Agent Arena 页面)

二、测试 AI Agent 任务成功率仅 19.5%,远低于人类操作能力

Windows Agent Arena 项目页面显示:" 为了展示 WAA 的能力,我们还引入了一种新的多模态 AI Agent Navi。"

▲ Navi 在 Windows Agent Arena 中面对一个典型的 Windows 任务:在 Visual Studio Code 中安装 Pylance 扩展。这展示了如何训练 AI Agent 人在普通软件环境中导航(来源:微软研究院)

测试结果显示,Navi 在 WAA 中的成功率为 19.5%,而人类的成功率是 74.5%。这说明想开发出能与人类计算机操作能力相仿的 AI,还存在很大挑战。

▲ Navi 在任务期间的推理过程和屏幕解析的分步示例(图源:Windows Agent Arena 页面)

这项研究的主要作者 Rogerio Bonatti 说:"Windows Agent Arena 为实现 AI Agent 的突破,提供了一个现实而全面的环境。同时,我们也希望通过 AWW 开源,来推进整个 AI 社区在这一关键领域的研究。"

此外,微软对几种最先进的视觉语言模型 Agent 配置都进行了基准测试,发现与人类行为相比所有现有模型的性能都较低,并且模型之间性能也存在很大差异。

WAA 的发布正值科技巨头之间竞争加剧之际,他们正在开发功能更强大的 AI Agent,以应对复杂的计算机任务。

微软对 Windows 环境的关注可能会使其在企业场景中保持主导优势。

三、开发AI Agent 时需平衡创新和伦理

像 Navi 这样的 AI Agent 带来的潜在好处是显著的,但开发此类技术也引发了重要的伦理考量。

随着 AI Agent 变得越来越复杂,它们将更全面地访问用户的数字生活,可能会在各种应用程序中与用户的敏感个人信息、专业信息产生接触。

AI Agent 在 Windows 环境中具有自由操作的能力,比如访问文件、发送电子邮件或修改系统设置等等,这都显示出采取强大的隐私保护措施的必要性。

在赋予 AI 有效协助用户的能力与维护用户隐私、控制用户数字领域之间,需要找到一个微妙的平衡点。

此外,随着 AI Agent 越来越能够模仿人类与计算机系统的交互,还出现了有关透明度和问责制的问题。

当用户与 AI 交互时,特别是在专业或者高风险场景中,可能需要被明确告知,因此明确用户同意协议也至关重要。

结语:开源 WAA 也需提升风险防控意识

微软开源了 Windows Agent Arena,朝着提升协作开发和审查技术迈出积极一步。

但与此同时,可能会有人使用该测试去开发具有恶意的 AI Agent,这意味着人们需要对此领域保持必要警惕和监管。

随着 WAA 为开发功能更强大的 AI Agent 加速,研究人员、伦理学家、政策制定者和公众就这些技术的影响进行持续讨论,将至关重要。

来源:VentureBeat、Windows Agent Arena 页面

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

ai 微软 azure 用户体验 chrome
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论