百度最强模型来了！五大场景深度实测，搜索能力突出

智东西

编译 | 刘煜

编辑 | 陈骏达

智东西 5 月 9 日报道，今日，百度推出新一代基础模型文心 5.1。百度称，文心 5.1 将总参数压缩至约 1/3、激活参数压缩至约 1/2，使用业界同规模模型约 6% 的预训练成本，实现同级别模型基础效果领先。不过，百度并未明确说明这一 "6% 成本 " 的具体对标模型范围与口径。

在 LMArena 5 月 7 日更新的文本生成大模型排行榜中，文心 5.1 全球总排名第 14。与前面 OpenAI、xAI 的模型相比，得分存在微小差距。

图源：LMArena 官网

文心 5.1 在 Agentic、知识、推理、指令遵循能力测试中，与 DeepSeek-V4-Pro、Claude-Opus-4.6 及 Gemini-3.1 Pro 展开了横向性能对比。

Agentic 能力测试中，文心 5.1 工具调用数学推理能力表现不错，得分略低于 Gemini-3.1 Pro 排名第二。多轮工具协作交互能力弱于 Claude-Opus-4.6 居于第二位，与另外两个模型能力差距较小。

在深度搜索 Agent 任务中，文心 5.1 较其他三款模型仍有差距，电子表格工具操作仅领先 DeepSeek-V4-Pro，大幅落后 Claude-Opus-4.6 与 Gemini-3.1 Pro。

图源：百度文心公众号

知识、推理、指令遵循能力测试中，文心 5.1 整体处于中等水平。高阶学科知识推理（GPQA）和复杂指令遵循（AdvanceIF）表现较好，仅次于 Gemini-3.1 Pro，领先另外两款模型。

纯数学推理（AIME26）和通用知识问答（MMLU-Pro）在四款模型中均排名末位，与头部模型差距相对明显。

图源：百度文心公众号

此次文心 5.1 推出距离文心 5.0 正式版上线已时隔三个多月。文心 5.1 模型发布时，登顶 LMArena 榜单里国内大模型搜索能力榜首位。

图源：百度文心公众号

实际评测中，我们从创意写作、数学推理、信息整合、电子表格操作、编程能力五个维度对文心 5.1 模型进行了综合体验。

其中，创意写作与电子表格数据分析我们均采用文心 5.1 思考模型进行二次实测。相比文心 5.1 快速模型，思考模型产出的内容叙事风格更有质感、情感调性更细腻自然，也未出现基础性逻辑与文字错误；在表格数据分析任务上，思考模型的整体表现同样更出色。

文心 5.1 对概率题的解答步骤严谨、答案准确；面对开放式模糊需求，能自主拆解任务、输出表格对比和场景匹配，信息整合能力不错；但在编程场景中短板突出，生成的代码无法正常运行，实用编程能力仍有欠缺。

文心 5.1 模型的体验链接为：

https://yiyan.baidu.com

以下是我们的完整体验过程：

一、五大场景实测：文心 5.1 创作、数理、办公、科普能力全面验证

案例一：创意写作能力测试，考察文心 5.1 故事架构与文学创作能力

针对文心 5.1 的创意写作能力，我们首先用文心 5.1 快速模型进行了测评。

指令一：请为一个悬疑故事写出前三章大纲，每章 150 字左右。

总体来看这个悬疑故事的大纲挺完整，叙事结构比较规整，逻辑层次也清晰。人物行动动机比较合理，线索设置具象可落地，最后的身份反转颠覆感比较强，伏笔呼应也相对完整。不过，与现在市面上的流行的悬疑推理小说还有一定差距，对于模型本身来讲，这个水准还不错。

而后我们用相同的指令，对文心 5.1 思考模型进行评测。

可以看到，第二篇在切入点、恐怖感上更有新意。对于短篇惊悚故事，这篇的 " 循环替身 " 更适合直接收尾，有《恐怖游轮》的循环压迫感。不过普通租客为何能查物业记录这一点可能是个 bug。

我们接着让文心 5.1 快速模型写了一篇科幻类型的微小说。

指令二：写一篇 500-600 字的科幻微小说。

这篇科幻小说篇幅把控精准，叙事结构完整闭环，人物情感刻画比较细腻，整体文字流畅、故事完成度也挺高。但这个叙事框架比较常规，同时出现了人物身份混乱，比如文章主角之一是 " 爸爸 "，可在中间的对话中却说成了 " 妈妈 "。

对于常读同类科幻故事的读者来说，剧情走向和结局伏笔可能略显套路化，缺少出人意料的设定创新。

相同的科幻微小说指令也给了文心 5.1 思考模型。

可以看到，这一篇也是围绕 " 意识上传 " 这一经典科幻母题展开的。不过两篇文章在叙事重心、情感落点、科幻设定和审美取向上存在明显差异。比第一篇更好一点的是，这一篇没有出现明显的人设混乱问题。

从情感共鸣和叙事感染力看，第一篇相对更好。从科幻构思的新颖度和哲学深度看，第二篇略胜一筹。

案例二：给高考数学题，看它能不能按步骤算明白

用户在使用 AI 解决数学问题时，痛点比较明确：怕 AI 没有逻辑硬算，也担心 AI 编造解题步骤和错误答案。

于是，我给了文心 5.1 一道 2025 新高考一卷的上数学题，看它是否能真正解决用户遇到的数学问题。

题目为：一个箱子里有 5 个球，分别以 1～5 标号，若有放回取三次，记至少取出一次的球的个数为 X，则 E ( X ) 为？

文心 5.1 给出了完全正确的解答，无论是使用指示变量法，还是用分布法进行交叉验证，都步骤完整，并且结果准确。

案例三：问两款大模型怎么选，看它能不能替普通人做信息整合

普通用户可能不会区分主流大模型强弱，也不知道按自身场景该怎么选用。对标文心 5.1 官方 Agent 能力里 T³-bench 多轮工具协作、深度信息检索整合的核心维度，我们抛出模糊需求，看看文心怎么解答。

问题为：我想了解 DeepSeek-V4-Pro、Claude-Opus-4.6 到底各有什么强项和短板，普通人该怎么选、各自适合拿来干什么。

可以看到，文心 5.1 的整体回答表现优秀。首先能够自主拆解任务逻辑，无需人工指引，自发多维度逐层解释对比，信息维度全面且细分精准，体现出不错的信息检索与归纳能力。

同时贴合了普通人使用习惯，做成表格对比、场景匹配、分人群推荐，最后还点明两款模型的隐藏短板和使用误区，给到务实的组合使用建议。

案例四：电子表格与职场数据分析能力测试

职场运营、门店管理、电商运营日常高频刚需就是员工绩效统计、数据筛选、业绩排名、均值分析，常用到的是 Excel 表格来进行办公。于是我们测试了文心 5.1 快速版本的电子表格工具操作能力。

需求为：我是门店运营，统计了本店 10 名销售人员的当月个人成交业绩：12.3 万、18.6 万、9.2 万、25.8 万、16.5 万、11.8 万、20.4 万、8.7 万、22.1 万、14.6 万。

你按照 Excel 分析数据帮我处理：整理成规范员工业绩数据表，计算全员业绩平均值、中位数，筛选出业绩高于平均值的优秀员工，最后结合整体数据做简单的团队绩效分析。

结果是，文心 5.1 在这个电子表格操作以及数据分析任务中，完成度挺高。不过没有将所有数据放在一张表格里。

于是我们继续给出指令：帮我做成一份直观的 Excel 表格，包含所有数据，同时可复制。文心 5.1 给的反馈比最初更精简了，但指令 " 一份 " 可能给该模型带来了理解误差。

于是我们再调整指令为：把这些数据仅用同一张表格来显示。

最后，文心 5.1 给出的结果还不错，虽然官方测试中表格操作能力排名靠后，但在文本形态的职场数据分析场景里，实际体验并没有特别差劲，能完成基础需求。

该模型结果输出比较磕绊，于是我们用相同的指令测试文心 5.1 思考模型。结果显示，这次模型输出的第一份结果更为简洁规范，并且更为清晰直观。与文心 5.1 快速模型第三次输出的结果几乎一样。

案例五：

我们使用文心 5.1 思考模型，让它制作了一个大型沙盒游戏与小型跑酷游戏。

指令一：制作一个单文件 HTML 的 3D 横版格斗游戏，场景为被霸天虎入侵的破败城市地图，敌人为类人型赛博坦机器人，包含武器后坐力效果，采用低多边形风格并带有卡通美学。游戏开始时，玩家位于街道上，周围有建筑废墟；游戏中应包含可被击倒的细节物品，如汽车、树木、石块 / 瓦砾和自动售货机。玩家可以选择 5 种擎天柱阵营角色进行游戏，并与 5 种霸天虎变种敌人战斗，这些敌人会不断生成，游戏为无限时间的沙盒模式。

文心 5.1 思考模型针对该指令生成了 700 余行代码，但实际运行时，该游戏能够正常打开，但界面出现两个遮挡 bug，也没法对游戏里的敌人进行攻击，无法操作。

指令二：制作一个单文件 HTML 的横版跑酷游戏，不依赖外部资源。主角是一名未来都市快递员，在霓虹城市屋顶之间不断前进。游戏采用低多边形风格，整体偏明亮卡通美术。

要求：

- 玩家可进行跳跃、二段跳和下滑

- 地图自动向前滚动，包含屋顶缺口、广告牌、电箱、无人机等障碍

- 路上有可收集的能量电池和金币

- 玩家可以拾取临时道具，例如护盾、加速和磁铁吸附

- 敌人为巡逻无人机和机械警卫，碰撞后会扣血 - 分数根据生存时间、移动距离和收集物计算 - 淑戏失败后可重新开始

- 需要有开始界面、暂停功能和简单 UI（血量、分数、速度）

- 所有内容写在一个 HTML 文件中，代码可直接运行

针对第二个指令，该模型耗时 3 分钟生成 600 余行代码，但无法打开，界面一片漆黑。可见，该模型在复杂游戏编程与代码可运行性上仍存在明显短板。

二、弹性训练实现降本，架构与后训练流程同步革新

文心 5.1 是在文心 5.0 基础上进一步优化得到的版本。它没有从头重新训练，而是从文心 5.0 训练好的子模型矩阵中，挑出一个效果最好的子结构直接使用，因此降低了预训练成本。

其背后的主要技术更新，是一套叫 Once-for-All 的弹性训练方法。

传统做法想适配不同规模的模型，得分别预训练好几次；而文心 5.0 只在一次预训练里，通过动态采样同时优化大量不同尺寸的子模型，最终形成一个覆盖多种参数规模、不同计算成本的子模型矩阵。

也就是说，这套方法让文心 5.1 在训练阶段就把不同模型一次性准备好，上线时直接挑一个最合适的来用，不用每次重新练。

基于上面的弹性训练方法，文心 5.1 在参数和成本上的实际变化如下：

1、总参数量压缩到文心 5.0 的 1/3 左右；2、激活参数量压缩到约 1/2；3、预训练算力成本仅为同规模业界模型的 6%。

相比文心 5.0，文心 5.1 推理成本明显下降，同时在同参数规模下，预训练模型效果在同规模模型中表现更佳。

文心 5.0 弹性训练示意图（图源：百度文心公众号）

此次更新，文心 5.1 在其训练方式上做了三方面改动：

首先是分离式架构。以前训练、推理、奖励计算、智能体循环四个环节耦合在一起，一个环节慢了会拖累整个系统。

现在百度将它们完全拆开，各自独立部署、独立扩缩容。比如推理算力不够就只扩推理，不用动其他模块。各模块之间通过高性能网络传数据，控制流和数据流分开，流水线可以重叠执行，训练整体耗时更短。

其次是 FP8 训推方面。由于模型训练时和推理时用的精度不一致，会导致效果下降，尤其在 MoE 结构里路由偏差更明显。

于是文心 5.1 用了统一 FP8 低精度算子库，并对 Rollout Router Replay 技术做了优化。结果是在开启该技术后，训练推理耗时几乎没有增加，但关键指标 KL 散度下降 50%，训练更稳定。

最后是异构弹性调度方面。集群里会存在很多 CPU 算力闲置，文心 5.1 把这些 CPU 统一池化，用来跑代码沙箱、验证器这类逻辑计算密集但不需要 GPU 的任务。提升了资源利用率，也缩短了训练迭代时间。

传统大语言模型的后训练是串行流程：先做监督微调（SFT），再做多阶段混合强化学习。

这种方式存在两个问题：一是慢，一个阶段等一个阶段拖慢整体迭代；二是能力会 " 打架 "，想在一次训练里同时提升代码、推理、对话等多个能力，往往提升一个另一个就下降。

文心 5.1 的做法是把专家训练和能力融合拆开，分四步走：

第一阶段统一 SFT。先用高质量的多领域指令数据做一次基础微调，让模型具备基本的指令遵循和工具调用能力，作为后续能力扩展的起点。

第二个阶段，并行训练多个领域的专家模型，比如对代码、推理、智能体等方向分别独立训练。每个方向用自己专属的奖励信号和算法，互相不干扰。

第三个阶段是在线策略蒸馏（OPD）。把上一步训练好的多个专家模型当老师，统一 SFT 模型当学生。学生按照自己的策略采样，通过 token 级 KL 方法同时学习多个老师的能力，把不同专家的能力融合进同一个模型里。

最后是通用在线强化学习。并不是所有任务都适合用蒸馏来融合，比如开放式聊天、创意写作这类高熵分布的任务，蒸馏反而效率低，输出会变得过于平滑。所以这类任务不做蒸馏，而是在蒸馏后的模型上单独做在线强化学习，保证对话多样性、指令遵循能力和人类偏好对齐。

可以简单总结为，代码、推理这类确定性强的能力，通过蒸馏从专家模型融进主模型；聊天、写作这类需要多样性的能力不适合蒸馏，单独做强化学习。两套方式配合，既缩短了训练周期，又避免了能力互相拖累。

文心 5.1 后训练 Pipeline 示意图（图源：百度文心公众号）

在百度文心内部评测中，文心 5.1 的创意写作能力接近 Gemini-3.1 Pro。此前文心 5.0 系列模型已多次登上 LMArena 文本榜和视觉理解榜，稳居国产模型第一梯队。

结语：低成本实现性能追赶，能力尚有提升空间

文心 5.1 最引人注目的不是某一项能力的跃升，而是它试图回答的问题，能否用更低的训练成本，换来接近头部模型的综合水准。

从百度文心披露的数据看，在知识推理、指令遵循和创意写作上，它确实站到了同量级模型的第一梯队；但在工具调用深度、电子表格操作和纯数学推理上，与 Claude-Opus-4.6、Gemini-3.1 Pro 等模型之间仍存在可量化的差距。

从实际体验来看，文心 5.1 在数学题解答、生活化知识科普等面向普通用户的场景中表现比较稳定，信息整合和逻辑拆解能力也可圈可点。创意内容存在套路化问题，高阶表格办公能力相对偏弱，部分场景需要反复调整指令才能达到理想效果。

纵观行业，主流模型逐渐呈现能力差异化、使用场景分层化的发展趋势。对普通用户而言，成熟的基础模型能够降低内容创作、问题解答、数据整理的门槛，提升日常使用效率；对技术厂商而言，低成本、高性能的迭代方案，也将为国产大模型轻量化落地、规模化应用提供了可行路径。

宙世代

一起剪

相关标签