IT之家 5小时前
阿里千问推出DeepPlanning基准测试,顶尖AI模型仍有短板
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 1 月 30 日消息,阿里千问今天在公众号平台发文,宣布推出新一代 Agent 基准测试 DeepPlanning。

据介绍,DeepPlanning 与传统的推理任务截然不同,要求 AI 在面对现实世界的复杂规划时通盘考虑不能只专注于局部

例如:多日旅行规划要精确到分钟级排期,同时守住时间、预算的硬上限;复杂购物场景要懂得叠加优惠券、知道如何动态组合商品才能满减,以实现整体价格最优。而且这些 " 硬要求 " 不只是让 AI 单纯在哪一步完成就好,必须贯穿整个计划始终。

最终实测结果表明,即使是目前顶尖的 GPT-5.2、Claude 4.5、Gemini 以及 Qwen 3 模型,在全局优化以及长周期一致性上仍存在部分短板,距离真正成为拥有 100% 自主决策能力的 " 行动派 " 还有一定距离。

值得注意的是,阿里千问还在 Hugging Face 和 ModelScope 平台开源了这款基准,IT 之家附上链接如下:

HuggingFace:https://huggingface.co/datasets/Qwen/DeepPlanning

ModelScope :https://www.modelscope.cn/datasets/Qwen/DeepPlanning

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 阿里 it之家 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论