红杉xbench:AI 去药企做实习,遥遥领先了人类

RESEARCH

xbench，就是红杉自己弄的那个中立评测 lab，刚刚又整了个新活：让 AI 做药企的数据分析，跟人类实习生比个高低，然后遥遥领先的赢了

前两天，红杉的朋友跟我说了这事儿，今天一早详细信息也放了出来：

故事大概是这样：

红杉的 AI 评测平台 xbench，联合 Phylo 和 Humanlaya Data Lab，找来斯坦福、哈佛、北大和头部药企的 100 位资深专家，花了 1000 多个小时，搭了 全球首个面向真实生物医药研究场景的过程级评估框架：BiomniBench，让 AI 从头到尾做一遍药企的真实数据分析，结果是：

最强 AI 组合拿到 73.34 分（满分 100），超过了人类实习生 40-50 分的平均线

诶 ...这里的「最强 AI 组合」是什么？让我卖个关子，稍后揭晓

真实世界没有选择题

这里补充一个背景：在药企，科学家的日常工作是啥？

答：对着脏的一塌糊涂数据一通分析，然后得到一个满意的结果

比如：给你一组免疫治疗患者的单细胞测序数据和临床信息，你要判断某个 biomarker（生物标志物）是否值得进入下一轮实验验证。数据清洗、样本筛选、统计方法、多重检验校正、生物学解释 ... 每一步都可能出错

虽然可能出错，但出错了也不一定会报错

比如，如果把外周血细胞也算进了肿瘤组织的分析，代码能跑通，图也画得漂亮，但结论 ... 大概率就错了

一位药企一线科学家说过：「在生物学里，一个看似正确的结论可能建立在完全错误的分析过程之上，而等你发现的时候，药已经做失败了」

在过去的 AI 评测中，很多的东西是测结果的，这样的 bench 也好搭建，但这次 xbench 这次做的 BiomniBench，测的是「模型会不会真的做研究」，从数据清洗、到方法选择、到统计检验、到生物学解释，每一步都测

或者说，这个叫：process-level evaluation，过程级评测

做药的都懂：跑通了不等于对了

左边只看答案，右边看全过程

100 道真题怎么来的

BiomniBench 第一个落地的模块叫 BiomniBench-DA，聚焦数据分析

这一模块包括 100 道题，都来自 Nature、Cell、Science 的公开数据，由原论文作者或 5 年以上经验的专家重新设计，覆盖肿瘤、代谢与内分泌、免疫、神经、心血管 5 大疾病领域，17 类分析任务

在测试的过程中，要求 AI 答题时给出完整分析轨迹，包括：读了什么数据，做了哪些清洗，为什么选某个方法，统计结果怎么样，怎么解释。然后 LLM 裁判按专家写好的评分标准，从六个维度打分：数据处理、方法选择、统计严谨性、生物学解释、科学推理、来源可靠性

当然，评分标准允许多条合理路径的。在很多生物学问题，t 检验和 Wilcoxon 都行，关键是你得说清楚为什么选这条，就是 ...「言之有理即可」

5 大疾病领域 × 17 类任务

谁是最强 AI 实习生

好，回到刚才卖的那个关子

最强配置是 Claude Code + Opus 4.7，73.34 分。排在后面的是 Claude Code + Opus 4.6，69.83 分。第三名 Codex CLI + GPT-5.4，68.69 分。前三名里两个是 Claude Code 的配置

人类呢？人类实习生平均 40-50 分，比 AI 低到不知道哪里去了

速度和成本 ... 应该就不用说了吧：

AI 完成一个任务平均 4.9 到 25 分钟，花 0.92 到 4.58 美元；

人类做同样的事通常要数小时到数十小时，耗费 3 个馒头

贵的不一定好，但好的确实贵

药企来说，这个进步还是很有价值的：大量探索性分析可以前置、并行化，然后丢给 AI，早期试错成本大幅降低

对了，这次的研究还带来个小收获，Agent 框架，对结果的影响极大：同一个 GPT-5.4，放在 Codex CLI 里 68.69 分，放在 Terminus-2 里只有 55.19 分

在药企数据分析这个场景下，Agent 框架的影响，跟模型本身差不多

同一个脑子，换组工具

另外一个有趣的是：AI 也偏科

细胞组成分析拿到 91 分，突变分析 88 分，边界清晰的任务是 AI 的专长。GWAS-eQTL 分析只有 45 分，通路富集 64 分，需要判断统计方法和理解生物学上下文的任务，AI 就稍显乏力了

然后，从评估维度看，所有模型在「生物学解释」上都有明显凹陷。AI 能算，但不太能解释。短期内「AI 算 + 人类解释」可能是最安全的协作模式

偏科这事，人和 AI 都一样

这实习生，能转正吗？

先说结论：对于数据的初步分析，可以用了

但如果分析错了需要进去，那还不行

以及，xbench 后续会开源部分题目供内部测试使用，也会继续推出覆盖更多行业场景的 benchmark

宙世代

一起剪

相关标签