图片来源:视觉中国 -VCG211550173673
当地时间 8 月 5 日,谷歌、Anthropic 和 OpenAI 相继推出 " 王炸 " 新模型,上演了一场 " 三国杀 "。
在这次激烈的交锋中,三巨头展示了截然不同的战略布局:
谷歌押注未来,发布了第三代通用型世界模型 Genie 3,为通用人工智能(AGI)的实现铺设关键基石;
Anthropic 继续深耕编程这一高价值赛道,发布编程能力更强的 Claude Opus 4.1 模型;
OpenAI 则以开源作为 " 生态诱饵 ",发布了免费、可商用的 gpt-oss 系列模型,意在构建庞大的开发者生态。
这场密集 " 出招 " 揭开了差异化竞争的底牌。而 8 月的 AI 战场或将持续 " 高能 "。Anthropic 5 日预告称,将在未来几周内发布 " 重大改进 "。OpenAI 此前也宣布," 重要的一周即将到来 ",外界猜测 GPT-5 或将登场。
谷歌 DeepMind:押注世界模型,瞄准 AGI 终极战场
8 月 5 日晚,谷歌以第三代通用型世界模型 Genie 3 的发布拉开了这场 " 暗战 " 的序幕。
Genie 3 是一款颠覆性的通用型世界模型,能够生成前所未有的多样化交互式环境。
图片来源:谷歌 DeepMind 官网
用户只需输入文本、图片甚至草图,Genie 3 就能创造出一个风格一致、符合物理逻辑的 3D 环境,并允许用户实时在其中行动和互动。比如,Genie 3 能理解 " 向左走 " 或 " 跳起来 " 等自然语言指令,并即时渲染出对应的第一人称视角画面。
与此前的视频生成模型(如谷歌自家的 Veo)和前代模型相比,Genie 3 主要进行了以下升级:
一是实现高清实时生成。它能以 720p 分辨率、24 帧 / 秒的速度在消费级显卡上流畅运行,画面流畅度媲美传统游戏引擎。
二是具备视觉记忆与一致性。Genie 3 为场景要素建立了持久的隐变量,解决了早期版本 " 转身即刷新 " 的沉浸感断裂问题。模型可以在生成每一帧的同时,回溯并利用最长可达 1 分钟的历史信息,确保环境的连贯性。
三是加入可提示的世界事件(Promptable World Events)。除了导航指令外,Genie 3 还支持用户追加提示来实时改变场景,例如 " 下雨 "" 加入两只狗 ",模型会即时重算物理与光照,让世界状态随剧情动态演进。
需要强调的是,Genie 3 的核心优势是通用性,游戏应用只是其中一个场景。Genie 3 通过生成可交互的虚拟世界,为游戏开发、模拟器、机器人训练乃至元宇宙的实现路径提供了极具震撼力的雏形。
英伟达的研究科学家 Jim Fan 直接将其称为 "一次量子跃迁 "。这表明谷歌正扮演着 " 下一个 Transformer 时刻 " 的缔造者角色,为走向 AGI 提供关键拼图。
Anthropic:锚定编程场景,深挖商业护城河
在谷歌 " 出招 " 大约 2 个半小时后,Anthropic 宣布推出新模型 Claude Opus 4.1,直接瞄准编程这一 " 变现高地 "。据称,该模型的编程、研究和数据分析能力有显著提升。
据 Anthropic 介绍,在 SWE-bench Verified 基准测试中,Opus 4.1 的编码性能达到 74.5%,相比前一版本 Opus 4 提升了 2 个百分点,而相较于 Sonnet 3.7 的提升更为明显,后者得分仅为 62.3%。
图片来源:Anthropic 官网
在另一项衡量代码生成、调试和逻辑推理能力的 HumanEval+ 基准测试中,Claude 4.1 Opus 的得分达到 85.2%,首次超越了此前由 GPT-4o 创下的 84.9% 的纪录。
Anthropic 援引开源软件社区 GitHub 的数据强调,Opus 4.1 此次升级的重点在于多文件代码重构的性能提升。
此外,根据 AI 编程公司 Windsurf 的报告,Opus 4.1 在其初级开发人员基准测试中比 Opus 4 提高了一个标准差,性能提升幅度与从 Sonnet 3.7 到 Sonnet 4 的提升大致相当。
在定价方面,Opus 4.1 与 Opus 4 保持一致,输入和输出价格分别为 15 美元 / 百万 Token 和 75 美元 / 百万 Token,基本实现了 " 加量不加价 "。这有望进一步巩固 Anthropic 在编程这一高付费意愿场景的竞争力。
OpenAI:六年后重返开源,抢占开发者生态
当天压轴登场的 OpenAI 则选择以 " 开源 " 破局。该公司推出了两款开放权重模型:gpt-oss-120b 和 gpt-oss-20b,标志着其时隔六年重返开源赛道。
这一步棋,OpenAI 可谓精明。在闭源模型引领消费者市场后,OpenAI 选择用开源来构建更庞大的生态系统,通过降低门槛,它希望让 gpt-oss 成为未来无数 AI 应用的基础设施,从而在下一阶段的竞争中掌握主动权。
最新发布的两款开源大模型定位清晰:
gpt-oss-120b 拥有 1170 亿参数,每 token 激活 51 亿参数,是一款为高推理能力、生产级通用场景打造的模型,可以在单张英伟达 H100 GPU 上高效运行;
gpt-oss-20b 更具 " 普惠性 ",总参数为 210 亿,每 token 激活 36 亿参数,专为低延迟、本地化或专业场景设计,仅需 16GB 内存即可在消费级笔记本电脑或手机等边缘设备上部署。
根据 OpenAI 发布的技术报告,这两款大模型均为纯文本语言模型,在文本处理、代码生成、数学问题求解等领域表现出色。尤为值得关注的是,gpt-oss-120b 在多项基准测试中的表现,媲美甚至超越了专有模型 o4-mini。较小的 gpt-oss-20b 则与 o3-mini 性能相当,在 AIME 和 HealthBench 等测试中表现更佳。
图片来源:OpenAI 技术报告
在技术架构上,gpt-oss 模型采用了混合专家(MoE)架构,通过交替使用密集注意力和局部带状稀疏注意力机制,实现了高效的推理和内存利用。模型还支持高达 128000 个 token 的上下文长度,相当于约 300~400 页的小说文本。
同时,模型采用了原生 MXFP4 量化技术,极大地降低了硬件门槛,使得开发者可以在更低的配置下运行模型。
在许可方面,gpt-oss 系列模型采用了对企业友好的 Apache 2.0 许可协议。这意味着任何消费者、开发者或企业都可以免费下载、进行参数级微调,并将其用于商业服务或创收,而无需向 OpenAI 支付任何费用。
此外,模型支持本地运行,无需联网,可以有效满足金融、医疗、法律等对数据隐私有严格要求的行业需求。
还需要指出的是,OpenAI 的开源并不彻底。
gpt-oss 使用的是 OpenAI 自定义的 "OpenAI Model License 1.0",其中包含了 " 毒丸条款 ",禁止年度收入超过 1 亿美元或日活跃用户超过 100 万的商业实体,使用 gpt-oss 来开发与 OpenAI 核心产品竞争的服务。这一条款精准地将所有潜在的大公司竞争对手排除在外,同时又能让广大的中小开发者和研究者进入其生态,是一次重大的战略转向。
8 月 AI 圈持续 " 高能 ":Anthropic 未来几周将发 " 重大改进 "
三家 AI 巨头在同一天集体发布新模型,这绝非偶然,意味着 AI 产业的竞争已进入一个全新的、更复杂的阶段。
从战略上看,谷歌着眼长远,以 Genie 3 推进世界模型研发,押注 AGI 未来;Anthropic 深耕垂直变现,锚定编程这一高频、高付费场景,深挖商业护城河;OpenAI 则以开源为饵,通过降低门槛吸引开发者,构建底层生态。
而 AI 巨头之间的 " 混战 " 还远未落幕。
Anthropic 在 8 月 5 日新闻稿中预告,未来几周内将发布 " 重大改进 "。前一日,OpenAI 高管也喊话:" 重要的一周即将到来 ",外界普遍猜测,GPT-5 或将登场。
种种迹象显示,8 月的 AI 圈,注定 " 好戏连台 "。
每日经济新闻
登录后才可以发布评论哦
打开小程序可以发布评论哦