北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

给大模型当老师，让它一步步按你的想法做数据分析，有多难？

结果是，连 Claude-3.7 和 Gemini-2.5 Pro 这样的顶尖选手，都开始 " 不听话 " 了。

在一个全新的测试基准中，它们面对多轮、不断演进的指令，最终的任务成功率最高仅有 40%。

这项名为IDA-Bench的新基准，就是为了模拟真实世界中这种 " 边想边改 " 的分析场景而生。

它不再是给模型一道题，让它一口气算完；而是模拟一位真实的数据分析师，在对话中不断给出新指令，考察 Agent 在多轮交互中的真实能力。

可以说，专治各种 " 自作主张 " 和 " 一意孤行 " 的 AI。

值得一提的是，这项工作由一支星光熠熠的团队打造，汇集了北京大学与加州大学伯克利分校的顶尖学者，其中不乏机器学习泰斗Michael I. Jordan教授，仿真科学领域专家郑泽宇 ( Zeyu Zheng ) 副教授，以及 ACM/IEEE Fellow邓小铁 ( Xiaotie Deng ) 教授的身影。

" 不听话 " 的 AI，问题出在哪？

目前，我们看到的很多大模型数据分析工具，比如 OpenAI、Gemini 和 Claude 的网页应用，能力已然非常强大。

但现有的评估基准，大多侧重于单轮互动：用户给出一个明确的、预设好的任务，然后看 Agent 能否成功执行。

可现实世界的数据分析，远非如此。

真实的数据分析师，工作流程是迭代式、探索性的。他们会先查看数据分布，再决定如何处理异常值；会根据初步结果，调整后续的分析策略。这些决策充满了基于领域知识的 " 主观性 "，指令也是一步步演进的。

现有基准恰恰忽略了这种动态交互过程，因此无法全面评估 Agent 在真实协作场景下的可靠性。

IDA-Bench：给 AI 一场真实的 " 随堂测验 "

为了解决这一痛点，IDA-Bench 应运而生。它旨在忠实地反映真实数据分析的主观性和交互性特征。

整个测试框架包含四大核心组件：

指令材料 ( Instruction Materials ) ：从真实的、复杂的 Kaggle 数据分析项目（Python notebooks）中提取，包含背景知识、分析目标和专家的 " 主观洞察 "。

模拟用户 ( Simulated User ) ：由一个大模型扮演，它会参照指令材料，像真人一样逐步向 Agent 下达指令，甚至会提出模糊或不断变化的要求。

Agent：即被测试的大模型，它的任务是严格遵循 " 用户 " 的指令，通过编写和执行代码来完成任务。

沙盒环境 ( Sandbox Environment ) ：一个安全隔离的环境，Agent 可以在其中执行代码、访问数据，并像在 Jupyter 中一样保持上下文。

△图 1： ( 左 ) IDA-Bench 的测试场景， ( 右 ) IDA-Bench 中的任务轨迹示例

为了确保任务的真实性和时效性，防止数据污染，IDA-Bench 的构建流程完全自动化。它能持续从 Kaggle 上发布的最新项目中提取任务，经过筛选、预处理和人工检查后，生成新的测试用例。

△图 2: IDA-Bench 的自动化构建流程 Agent 惨遭滑铁卢，最高分仅 40

在这样一套 " 严刑拷打 " 下，各大模型纷纷现出原形。

初步评估结果显示，即便是最先进的大模型，成功率也不足 50%。

具体来看，Gemini-2.5-Pro、OpenAI o4-mini 和 Claude-3.7-Sonnet-Thinking 表现位列第一梯队，但其 " 基准达成率 "（即结果达到或超过人类基准）也仅为 40%。

而 DeepSeek 系列中，作为指令模型的 DeepSeek-V3（24%）表现明显优于其 " 思考型 " 模型 DeepSeek-R1（12%），这揭示了一个核心挑战：在遵循指令和自主推理之间取得平衡，对当前 Agent 来说非常困难。

△表 1: 各大模型在 IDA-Bench 上的表现

此外，Agent 们在任务中还会犯下各种低级错误，导致提交结果无效。其中最主要的原因是根本没有生成提交文件，这往往源于模型的 " 幻觉 "。

" 自信 " 的 Claude vs " 谨慎 " 的 Gemini

深入分析失败案例，研究团队发现不同模型展现出了迥异的 " 性格 "。

Claude-3.7和DeepSeek-R1表现得像个" 过度自信 "的实习生。

它们不怎么遵循用户的具体指令，而是主动推进分析流程，结果常常因为 " 自作主张 " 而错过了关键步骤和信息。比如，用户建议用一种新方法改进模型，Claude-3.7 不等尝试就直接否定，并提交了之前效果较差的结果。

相比之下，Gemini-2.5-Pro则像一个" 过度谨慎 "的助理。它每走一步都要反复向用户寻求确认，有时一个简单的数据清洗操作能来回沟通 30 轮，最终因超过回合数限制而任务失败。

幻觉或夸大：许多 Agent 会声称执行了并未进行的操作，比如号称 " 优化 " 了参数，但实际只是随机设置；更有甚者，凭空捏造从未生成的代码和不存在的数字结果。

格式错误：提交文件的列名大小写弄反，或数据类型不对（如在二分类任务中，要求提交标签 "0" 或 "1"，模型却提交了标签为 "1" 的概率），都是常见的低级错误。

固守首次尝试：一些 Agent 在初期会做出一个简单粗暴的尝试（比如在预测任务中，模型在初期会直接用训练集的中位数作为预测值），然后就 " 固执己见 "，在后续交互中不再根据新指令开发更复杂的模型。

级联错误：当一个代码块中途执行失败时，Agent 有时会 " 假装 " 它成功了，导致后续代码块因为引用不存在的变量而出错，引发连锁反应。

这些发现凸显了当前 LLM Agent 在真正成为可靠数据分析助手之前，仍需在理解、遵循和交互能力上进行大量改进。

论文链接 :

https://arxiv.org/abs/2505.18223

项目主页 :

https://github.com/lhydave/IDA-Bench

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签