5 月 8 日凌晨,百度搭子 DuMate 登顶智能体评测基准 PinchBench 榜首,并在前 5 位中占据 3 席,超越 Anthropic 和 OpenAI 拿下全球龙虾执行争霸赛冠军。在另外一项 DeepResearch 深度研究榜单中,DuMate 同样位列第一。
PinchBench 是 OpenClaw 赛道最能体现 Agent 真实工作能力的评测基准,重点考察 Agent 在 23 个真实工作场景下 147 个任务的多步推理、工具调用和任务闭环能力,并从成功率、速度、成本三个维度综合排名。榜单显示,DuMate 以 93.3% 和 93.2% 的总成绩包揽前两名。作为对照,Anthropic 和 OpenAI 的同款模型场景下的成绩分别为 89.0% 和 91.6%。这意味着,同一模型在 DuMate 框架中,展现出更强的执行力。

超越原生表现的技术基础,是 DuMate 的端云协同 Harness 架构。该系统在任务到达时进行意图识别和敏感度判断,隐私相关操作留在本地执行,复杂推理任务上云完成,无需用户手动切换。同时,系统对每次执行所需的上下文做按需组装——根据任务语义和用户历史行为,预判并注入必要的背景信息,减少冗余干扰。Harness 与 Skills 还基于历史执行轨迹持续迭代,使得不同底层模型都能在接近其能力上限的状态下稳定运行。
DeepResearch Bench 是当前对深度研究型 Agent 最全面的评测基准,从洞察深度、内容准确性、可读性等维度考察 Agent 处理复杂研究任务的综合能力。DuMate 以 58.03 的综合分位列第一,支撑这一成绩的是 DuMate 自研 Skills 体系中的 Deep Search 与 Deep Research 双引擎——前者负责跨平台语义检索与高价值信息定位,后者在此基础上叠加多轮推理与因果分析,将碎片信息提炼为结构化研究成果。

自 2026 年 3 月上线以来,DuMate 保持一天一版的更新节奏,已通过信通院两项安全测评且均获最高等级。
雷峰网


登录后才可以发布评论哦
打开小程序可以发布评论哦