新一轮大模型要来了！Blackwell加持下，AI能力更强了？

AI 大模型竞争正迈入新的技术节点。以英伟达 Blackwell 架构训练的首批旗舰模型即将亮相，花旗研究将其定性为当前行业竞争格局中 " 最重要的近期技术催化剂 "，而在此之前，多家头部 AI 实验室已密集推出或预告新品，新一轮能力跃迁正在加速兑现。

Anthropic 本周正式发布 Claude Opus 4.8，在智能体协作、可控推理与诚实度方面全面升级，发布时间较外界此前预期明显提前；马斯克在 X 平台披露，参数量高达 1.5 万亿的 Grok-5 训练已完成，预计 2 至 3 周内发布，参数规模是现役 Grok-4 的三倍；MiniMax 工程主管同期发布预告，暗示采用全新稀疏注意力机制的 MiniMax-M3 即将登场。与此同时，OpenAI 的 GPT-6.0、谷歌的 Gemini 3.5 Pro 等新一代模型也已排入发布日程。

据追风交易台消息，花旗研究 5 月 22 日报告指出，当前 AI 需求呈现 OpenAI 首席财务官 Sarah Friar 所称的 " 垂直的需求之墙 " 态势：谷歌每月处理的 tokens 量已达 3.2 千万亿（Q），同比增长 7 倍；Anthropic 预计二季度末年化收入（ARR）约达 500 亿美元，较 3 月底的 300 亿美元大幅跳升，二季度收入预测为 109 亿美元，环比增幅约 130%；OpenAI 一季度单季收入 57 亿美元，已超去年上半年约 43 亿美元的总和。然而，供给侧增速更为渐进，算力与推理成本双双走高，供需错配格局正在重塑整个行业的定价逻辑。

上述动态意味着 AI 平台商业化路径正沿两个方向演进：能力竞赛驱动前沿推理的持续溢价，供给约束则推动算力服务走向类云计算的预留定价模式。Blackwell 训练模型能否真正带动能力跃迁，将是检验这一逻辑的关键节点。

Blackwell 训练模型：下一轮技术跃迁的真正起点

花旗研究把 " 首批基于 Blackwell 架构训练的模型 " 列为近期 AI 竞争中最关键的技术催化剂，逻辑很直接：目前所有排在前沿模型榜单上的产品，包括 OpenAI GPT-5.5（花旗 AI 智能指数 60）、谷歌 Gemini 3.1 Pro Preview（57）、Anthropic Claude Opus 4.7（57），全部是用上一代算力训练出来的。

换句话说，Blackwell 的算力优势到现在还没有真正体现在模型能力上。市场普遍预期，一旦首批 Blackwell 训练模型落地，将与现有产品之间形成明显的能力断层。

这也是为什么花旗特别强调 Mythos 的节点意义—— Anthropic 的 Claude Mythos 预览版，是目前已知的 " 前 Blackwell 时代 " 最后一批顶级模型之一，其对齐性和推理能力已被视为当前架构的天花板。Mythos 之后，下一批重磅模型将是首批真正吃到 Blackwell 红利的产品。

花旗模型发布日历显示，未来数月发布节点密集：谷歌 Gemini 3.5 Pro、Anthropic Claude Sonnet 4.7 等预计二季度内落地；Claude Opus 5、Sonnet 5 及 DeepSeek V5 等定档四季度；OpenAI GPT-6.0 则排期三季度。其中哪些将成为首批由 Blackwell 算力全程训练的产品，是市场当前最核心的关注点。

GPU 算力租赁市场数据同样印证了这一预期。花旗追踪的 Blackwell 系列芯片（ ( G ) B200/ ( G ) B300 等）租赁价格自 2025 年下半年以来持续攀升，直接反映出市场对下一代训练算力需求的强劲升温。

Claude Opus 4.8：Anthropic 在 Blackwell 前夕加速迭代

在距 Claude Opus 4.7 发布仅约一个月后，Anthropic 本周发布 Claude Opus 4.8，时间较此前外界根据代码泄露推测的 "6 月中旬 " 窗口明显提前。在 OpenAI、谷歌等厂商持续推进智能体与推理模型竞争的背景下，Anthropic 正以更快的迭代频率押注高端企业 AI 市场。

此次升级的核心变化有三：一是新增 " 投入控制 "（effort control）机制，用户可主动调节模型推理资源的投入强度，在速度、成本与推理深度之间灵活取舍；二是推出 " 动态工作流 "（Dynamic Workflows）研究预览版，整合进 Claude Code，支持协调数百个并行子智能体完成大规模复杂任务—— Anthropic 举例称，新系统可端到端处理覆盖数十万行代码的大型代码库迁移；三是着力提升 " 诚实度 "（honesty），内部评估显示，Opus 4.8 允许代码缺陷未加提示通过的概率，仅为 Opus 4.7 的约四分之一，且对齐性已达到与 Claude Mythos 预览版相媲美的水平。

在基准测试上，Claude Opus 4.8 在衡量浏览器智能体能力的 Online-Mind2Web 中获得 84%，Anthropic 称其优于 Opus 4.7 和 GPT-5.5。

定价维持与 Opus 4.7 一致：每百万输入 token 5 美元、每百万输出 token 25 美元。新增 " 快速模式 "（Fast Mode），定价为每百万输入 token 10 美元，速度为标准模式的 2.5 倍，成本据称仅为此前模型的三分之一。模型已在亚马逊 AWS、谷歌云及微软 Foundry 同步上线。

Anthropic 还在公告中透露，少数机构已开始在网络安全场景中试用 Claude Mythos 预览版（Glasswing 项目），并预计 " 在未来数周内 " 将 Mythos 级别模型向全部客户开放。

Grok-5 与 MiniMax-M3：更多强模型即将来袭

Blackwell 训练模型即将登场的背景下，多家头部实验室正密集预告新品，试图在新一轮能力竞赛正式开始前抢占位置。

马斯克本周在 X 平台披露，1.5 万亿参数的 Grok V9-Medium（Grok-5）训练已完成，预计 2 至 3 周内向公众发布。

相比之下，当前 xAI 全部生产流量运行在参数约 0.5 万亿的 Grok-4 上，新模型参数规模一举扩至三倍。马斯克特别提到，来自 AI 编程工具 Cursor 的大量编程数据已被纳入补充训练，后续还有更多数据将跟进。Cursor 当前年经常性收入（ARR）已达 20 亿美元，三个月内翻倍，开发者在其上产生的代码补全、重构、调试交互数据，提供了完整的思维链训练素材，对编程能力建模的价值明显高于直接爬取代码仓库。

在此前战略布局中，SpaceX 已于 4 月 21 日宣布与 Cursor 达成合作，Cursor 可使用 Colossus 超算训练模型，SpaceX 获得以 600 亿美元收购 Cursor 的期权，否则需支付 100 亿美元合作费用。这一架构下，Grok-5 针对编程场景的升级，将在与 OpenAI Codex、Anthropic Claude Code 的竞争中进一步加码。

MiniMax 方面，工程主管本周发布预告图，暗示采用全新稀疏注意力机制的 MiniMax-M3 即将推出，据市场解读，预填速度可提升 9.7 倍、解码速度提升 15.6 倍。据花旗前沿模型排行榜，当前 MiniMax-M2.7 以每百万 tokens 仅 0.22 美元的极低定价在市场中占据一席，M3 落地后，其在性价比赛道的优势有望进一步延续。

此外，DeepSeek V4 Pro（4 月 24 日发布，花旗 AI 智能指数 52）以及来自中国多家机构的 Qwen3.6 Plus、Kimi K2.6 等产品也相继入场，前沿模型竞争格局的多极化趋势愈发清晰。

需求 " 垂直墙 "：企业采用仍在早期

花旗研究用 " 垂直的需求之墙 " 来描述当前 AI 需求的增长态势——这个词最早来自 OpenAI 首席财务官 Sarah Friar，意思很直白：需求增速几乎是垂直拉升的。

具体数据印证了这一判断：谷歌每月 tokens 处理量同比增长 7 倍，达到每月 3.2 千万亿（Q）；Anthropic 预计二季度末年化收入（ARR）约达 500 亿美元，较 3 月底的 300 亿美元大幅跳升，二季度收入预测为 109 亿美元，环比增幅约 130%；OpenAI 一季度单季收入 57 亿美元，已超去年上半年约 43 亿美元的总和。

花旗认为，这些数据背后更重要的信号是：企业端 AI 采用加速仍处于早期阶段，需求的天花板远未到来。

与此同时，Intuit、Meta 及 Cisco 相继宣布裁员，花旗将这些行动解读为 AI 加速冲击传统生产效率场景的潜在信号，并指出一个核心问题仍悬而未决：AI 带来的生产力红利，究竟将流向 AI 平台、软件厂商、企业客户还是劳动力市场？这一问题正随着基础设施容量的边际收紧而日益紧迫。

推理定价：高端溢价强化，低端竞争加剧

花旗研究的定价跟踪数据显示，AI 定价体系正形成明显的双轨格局：接入层面竞争趋于激烈，但前沿推理定价几乎未见下行压力。

谷歌将 AI Ultra 订阅价格从每月 250 美元下调至 200 美元，并于 5 月 19 日推出 100 美元 / 月新档位，面向专业个人用户，提供 5 倍于 Pro 套餐的使用限额，并捆绑 YouTube Premium。相比之下，GPT-5.5 相较 GPT-5.4 的价格约上涨 2 倍，叠加 AI 实验室加速淘汰旧款模型的趋势，显示出头部厂商正通过订阅分层与前沿推理溢价对用户群体进行更精细化的市场切割。

企业端采用在边际上亦承受一定成本压力。据 OpenRouter 5 月 4 日对 GPT-5.5 的成本分析，不同工作负载下成本增幅为 49% 至 92%，部分被输出 tokens 减少 19% 至 34% 所抵消。

供给约束：算力稀缺催生预留定价新模式

供给增速跟不上需求，直接推动了 AI 算力服务模式的变革。

OpenAI 于 5 月 20 日推出 " 保证容量 "（guaranteed capacity）方案，允许企业以 1 至 3 年期合约锁定算力，换取随年度承诺量递进的 token 折扣；Blackstone 与 Google Cloud 于 5 月 18 日宣布合作；Anthropic 近期也完成多项推理服务商业协议。花旗认为，这些举措的实质是构建云计算式的 " 预留实例 " 和 " 算力即服务 " 机制，以系统性方式锁定稀缺推理产能。

分析师还特别指出，前沿能力供给中最严峻的约束，依然在于人才层面。 顶尖 AI 研究员 Andrej Karpathy 近期加入 Anthropic，再度印证了头部实验室在高端人才争夺上的高强度角力。在硬件算力之外，顶尖研究人才仍是前沿模型能力演进的核心瓶颈——这也意味着，即便 Blackwell 算力到位，能否真正转化为模型能力的跃迁，最终还是取决于人。

宙世代

一起剪

相关标签