直面派 4小时前
最强牛马狙击编程之王,OpenAI和Anthropic深夜同发大招
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2026 年的这一天注定会被写入 AI 发展史。

Claude Opus 4.6 和 GPT-5.3 Codex 在相隔不到一个小时的时间里先后发布。

两家公司似乎都憋着一口气,要在同一个时间节点上交出自己的答卷。

" 撞车 " 的背后,是一场关于资本、技术和市场话语权的较量。

就在两周前,英伟达刚刚宣布向 Anthropic 投资 100 亿美元,这笔钱让 Anthropic 的估值飙升到 3500 亿美元。

消息传出后不到 72 小时,英伟达转身又向 OpenAI 注资 200 亿美元。

黄仁勋的算盘打得很清楚:两边都押注,谁赢都不亏。

但对 Anthropic 和 OpenAI 来说,这不只是拿到钱那么简单。

两家公司都计划在 2026 年下半年到 2027 年左右启动上市程序,现在正是证明自己技术实力、争夺市场定价权的关键时刻。

投资人要看的不是 PPT 上的承诺,而是能拿出手的产品。

谁的模型更强,谁在实际应用中更有说服力,谁就能在 IPO 时要到更高的价格,拿到更多的筹码。

一山容不得二虎,Anthropic 和 OpenAI 必须得让对方明白,谁才是老大。

因此,这种产品节奏不是巧合,而是卡好了表的对轰。

两家公司都清楚,在这个时间点上,每一次产品发布都是一次融资路演,每一个技术突破都会直接影响投资人的判断和市场的预期。

不过从产品本身来看,两家公司确实都拿出了真本事。

01

Claude Opus 4.6

Anthropic 这次对 Claude Opus 系列的升级,核心放在了 " 更聪明地思考 " 这件事上。

Opus 4.6 最显著的变化是它学会了 "adaptive thinking",模型会根据任务的复杂程度自动调整思考深度。在困难问题上花更多时间思考,而在简单任务上快速通过。

在代码能力方面,Opus 4.6 在 Terminal-Bench 2.0 这个评测中拿到了最高分。

这个测试专门考察 AI 在终端环境下的操作能力。模型需要知道什么时候该用哪个命令,如何组合不同的工具,以及怎么从错误信息里找到问题所在。

这就像是考察一个程序员会不会熟练使用各种开发工具。不只是写代码,还要会调试、会部署、会看日志找 bug。

更重要的是,Opus 4.6 是 Anthropic 第一个提供 100 万 token 上下文窗口的 Opus 级别模型。这个数字意味着模型可以一次性处理相当于两本中等厚度小说的文本量。

在长文本处理的测试中,Opus 4.6 在 MRCR v2 的 8-needle 1M 变体上得分 76%,而上一代的 Sonnet 4.5 只有 18.5%。

简单一点来理解,就是给模型一大堆文档,然后问它一个需要综合多处信息才能回答的问题。

以前的模型看着看着就 " 忘了 " 前面的内容,或者找不到关键信息。Opus 4.6 能在海量文本里准确定位需要的信息,而且不会因为文档太长就表现下降。

在知识工作能力的评测 GDPval-AA 上,Opus 4.6 比 OpenAI 的 GPT-5.2 高出约 144Elo 分,比自己的前代 Opus 4.5 高出 190 分。这个测试涵盖了金融、法律等领域的实际工作任务,比如制作财务分析报告、起草法律文件、做市场调研等。

Anthropic 还在产品层面做了不少配套更新。

Claude Code 现在支持 "agent teams" 功能,可以同时启动多个 AI 代理,让它们各自负责不同的子任务,然后自动协调工作。

对于那些大型的代码库,这个功能特别有用,可以把工作拆分给不同的代理并行处理。

在办公软件集成方面,Anthropic 推出了 Claude in PowerPoint 的研究预览版,并大幅升级了 Claude in Excel。

现在 Claude 可以直接在 Excel 里处理更复杂的任务,支持数据透视表编辑、图表修改、条件格式化等功能。在 PowerPoint 里,Claude 能读懂现有的版式、字体和母版设计,然后按照这个风格创建新的幻灯片。

就是让 AI 真正进入你日常工作的工具里。不用来回复制粘贴,直接在 Excel 或 PowerPoint 的侧边栏跟 Claude 对话,它就能帮你改表格、做图表、生成演示文稿。

而且它会学习你的风格,做出来的东西不会显得格格不入。

在 API 层面,Anthropic 引入了 "effort" 参数,提供低、中、高、最高四个档位。

开发者可以根据任务的复杂度选择合适的档位,在成本、速度和质量之间找平衡。还有 "context compaction" 功能,当对话接近上下文窗口限制时,会自动总结并替换较早的内容,让长时间运行的任务不会因为超出限制而中断。

可以理解为给开发者更多的控制权。

简单任务用低档位,省钱又快;复杂任务用高档位,保证质量。对话太长了系统会自动压缩前面的内容,这样就能一直聊下去。

在安全性方面,Anthropic 这次做了他们有史以来最全面的安全评估。

Opus 4.6 在自动化行为审计中显示出较低的不当行为率,包括欺骗、阿谀奉承、鼓励用户妄想和配合滥用等。

由于 Opus 4.6 在网络安全方面的能力有显著提升,Anthropic 专门开发了六个新的网络安全 " 探针 " 来检测潜在的滥用行为。

同时,他们也在用这个模型帮助开源软件查找和修补漏洞,希望让防御方也能用上 AI 的力量。

02

Advancing Finance:

金融领域的深度应用

Anthropic 专门发布了一篇文章,详细介绍 Claude Opus 4.6 在金融领域的应用。

在金融工作中,专业人士需要 AI 做三件事:研究、分析和创建交付物。Opus 4.6 在这三个维度上都达到了业内领先水平。

在研究能力上,Opus 4.6 在 BrowseComp 和 DeepSearchQA 两个基准测试中都有提升。

这两个测试考察的是模型从大量非结构化数据中提取特定信息的能力。

对金融分析师来说,这意味着可以把一堆公司财报、行业报告、新闻文章扔给 AI,然后问一个很具体的问题,AI 能给出针对性的答案,而不是泛泛的总结。

你丢给它一份财报,以前问 AI" 这家公司的盈利能力如何 ",它可能给你的是一大段话,然后再把财报内容复述一遍。

现在它能直接告诉你关键指标是什么,跟行业平均水平比怎么样,有哪些风险因素。

在分析能力上,Opus 4.6 在 Finance Agent 这个外部基准测试中达到 60.7% 的准确率,比 Opus 4.5 提升了 5.47 个百分点。

在税务评估 TaxEval 上,Opus 4.6 也达到了 76% 的业内最高水平。

Anthropic 用一个商业尽职调查任务做了对比,他们让 Claude Opus 4.6 去评估一个潜在的收购目标。这种工作通常需要一个资深分析师花两到三周时间才能完成。

但是 Opus 4.6 的首次输出在结构、内容和格式上都比 Opus4.5 更接近可以直接使用的标准。

也就是说,现在做出来的东西你小改一下就能用。这对于需要快速产出报告、演示文稿的金融从业者来说,效率提升是实实在在的。

Anthropic 的内部 " 真实世界金融 " 评估涵盖了约 50 个投资和财务分析用例,包括电子表格、幻灯片和文档的生成与审阅。

这些是投资银行、私募股权、公开市场投资和企业财务领域分析师的常见任务。Opus 4.6 比几个月前的 Sonnet 4.5 提升了超过 23 个百分点。

配合 Cowork 这个新功能,金融团队可以同时启动多个分析任务。Cowork 让 Claude 可以访问你指定的本地文件夹,直接在里面读取、编辑和创建文件。

对金融团队来说,这意味着可以一次性布置几个分析任务,同时监督 Claude 创建每个交付物的过程,确保符合自己的标准。

03

GPT-5.3 Codex:

自己训练自己的模型

在 Claude Opus 4.6 发布的几十分钟后,奥特曼突然发了一条 X,宣布 GPT-5.3 Codex。

我在这里也是代表字母 AI,给奥特曼和阿莫迪一点面子,给他们分别点了喜欢和转发。

GPT-5.3 Codex 最牛的地方在于,它能像真人同事一样干活,而且可以边干活边跟你商量。

以前的 AI 是 " 你说一句我做一句 ",GPT-5.3 Codex 是 " 有问题随时问你 "。

你给它一个复杂任务,它能自己琢磨几个小时甚至几天,中途还会主动跟你汇报进度、问你意见,你随时可以插话调整方向。

有意思的是,OpenAI 用 GPT-5.3 Codex 的早期版本来帮忙开发后续版本。也就是说,让 AI 帮着调试 AI 的训练过程、修 bug、优化系统,OpenAI 团队说这让开发速度快得惊人。

GPT-5.3 Codex 在多个基准测试中创造了新的行业纪录。在 SWE-Bench Pro 上,它达到了 56.8% 的准确率,这是一个严格的真实世界软件工程评估。

与只测试 Python 的 SWE-bench Verified 不同,SWE-Bench Pro 涵盖四种编程语言,更抗污染、更具挑战性、更多样化,也更贴近行业实际。

在 Terminal-Bench 2.0 上,GPT-5.3 Codex 达到 77.3%,远超之前的 64%。

这个测试衡量的是代码代理需要的终端技能,也就是在命令行环境下完成各种操作的能力。值得注意的是,GPT-5.3 Codex 用的 token 数量比之前任何模型都少,这意味着用户可以用同样的成本做更多事情。

在 OSWorld-Verified 这个测试中,GPT-5.3 Codex 得分 64.7%,而 GPT-5.2-Codex 只有 38.2%。

这是一个代理计算机使用基准测试,AI 需要在可视化的桌面计算机环境中完成生产力任务。人类在这个测试中的得分约为 72%,GPT-5.3 Codex 已经接近人类水平。

在网页开发方面 ,OpenAI 展示了一个对比案例:让 GPT-5.3 Codex 和 GPT-5.2-Codex 分别创建一个 SaaS 产品的落地页。

GPT-5.3 Codex 自动把年度套餐显示为折扣后的月度价格,让优惠看起来更清晰、更有意图,而不是简单地把年度总价乘出来。

GPT-5.3 Codex

GPT-5.2 Codex

它还做了一个自动切换的用户评价轮播,包含三条不同的用户评价,而不是只有一条,让整个页面感觉更完整、更接近可以上线的状态。

简单来说,就是它会考虑用户体验和营销效果。不是机械地实现功能,而是会想 " 怎么做更好 "。这种对细节的把握和对最终效果的理解,让它做出来的东西更接近专业水平。

GPT-5.3 Codex 的能力不仅限于编码。

它支持软件生命周期中的所有工作,比如调试、部署、监控、编写产品需求文档、编辑文案、用户研究、测试、指标分析等等。

在 GDPval 测试中,GPT-5.3 Codex 的表现与 GPT-5.2 持平,达到 70.9% 的胜率或平局率。这个测试衡量的是模型在 44 个职业的明确知识工作任务上的表现,包括制作演示文稿、电子表格和其他工作产品。

一个有趣的细节是,两家公司都强调了 " 自己用自己的产品 "。Anthropic 说 " 我们用 Claude 来构建 Claude", OpenAI 说 "GPT-5.3 Codex 在自己的开发中发挥了关键作用 "。

这其实是最好的广告,如果自己的工程师都不愿意用,怎么能指望别人用?

而且从技术演进的角度看,两个模型都代表了 AI 从 " 回答问题 " 到 " 完成工作 " 的转变。

它们不再满足于生成一段文字或一段代码,而是要能够执行完整的工作流程,产出可以直接使用的交付物。这种转变对 AI 的要求高得多:不仅要懂技术,还要懂业务;不仅要能做,还要做得好;不仅要快,还要稳。

值得注意的是,两家公司都没有回避 AI 能力提升带来的风险。Anthropic 做了 " 有史以来最全面的安全评估 ", OpenAI 部署了 " 最全面的网络安全防护措施 "。

从用户角度看,两家公司的竞争是好事。不同的需求可以找到不同的解决方案,不同的工作方式可以选择不同的工具。更重要的是,竞争会推动双方继续创新,让 AI 能力的边界不断扩展。

而且这两个产品的发布也标志着 AI 进入了一个新阶段。不再是 " 能不能做 " 的问题,而是 " 怎么做得更好 " 的问题。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 投资人 程序员 黄仁勋 撞车
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论