GPT-5.3上线Codex！OpenAI回应Claude新模型只用了15分钟

火星撞地球，新模型大战！

Claude Opus 4.6 发布仅仅 15 分钟，OpenAI 也甩出了自己最新最强编程模型——

GPT-5.3-Codex。

最直观的感受是，这个新模型终于有点美学品味了。

官方展示了两个 Demo：一个赛车游戏、一个潜水游戏。还蛮有风格的。

据说，GPT-5.3-Codex 在几乎没有人工干预的情况下，持续迭代这些游戏，累计消耗了数百万 token。

在网页开发上，除了 UI 更好看，对「意图」的理解也更强了。

即便 Prompt 给得不清楚，它也能自动补全逻辑，生成一个功能齐全的网站。

就这些 Demo 来看，设计感确实比之前强了一截。

Computer use能力同样拉满，现在已经能用来帮金融从业者直接做 PPT。

其他职场工作也能覆盖，尤其是在专业知识密集型任务上，写文档、做电子表格都没什么问题。

硬实力方面，官方给出的亮点如下：

更聪明：SWE-Bench Pro 57%，TerminalBench 2.0 76%，OSWorld 64%。

更可控：支持任务进行中的实时引导，可随时调整方向并获取更新。

更快速：完成相同任务时，所需 token 不到 5.2-Codex 的一半，单 token 速度提升超过 25%。

更 Agent：不只是更会写代码，计算机操作同样很强。

直接看这张对比表会更直观，几乎每一个维度，都比上一代有明显提升。

网友直呼过于刺激，昨天 OpenAI 刚被 Anthropic 拿广告狙了一枪，今天就对轰了回来。

一天之内，两个重量级编程模型。

评论区也迅速分成了 Anthropic 派和 OpenAI 派。

下面来看看，这场奥特曼主动挑起的 AI coding 大战，OpenAI 到底表现如何？

GPT 5.3 Codex

大家最关心的，当然还是编程能力。

OpenAI 表示，GPT-5.3-Codex 在SWE-Bench Pro上实现了 SOTA。

这是一个专为真实世界软件工程设计的测试，覆盖四种编程语言，整体难度更高、任务更丰富，也更贴近真实生产场景。

同时，GPT-5.3-Codex 在 Terminal-Bench 2.0 上的表现也有明显提升。

更关键的是效率。在拿下这些成绩的同时，GPT-5.3-Codex使用的 token 数量少于任何以往模型。

除了编程能力，新一代 Codex 的另一个重点是Computer use。

OSWorld 是一项面向智能体的计算机使用基准测试，要求模型在可视化的桌面计算机环境中完成各类生产力任务。

结果显示，GPT-5.3-Codex 在计算机使用能力上，明显强于此前的 GPT 模型。

综上，GPT-5.3-Codex 不是一次单点模型能力突破，更像是基于智能体的全方位发展，编码、前端开发、计算机操作全都有提升。

更有意思的是，这次GPT-5.3-Codex 直接参与了自己的训练过程。

OpenAI 表示，这是他们首个参与「自我加速」的模型。Codex 团队在研发过程中使用其早期版本，来调试自身训练流程、管理部署，并评估测试结果。

官方也给出了一些具体例子。

在训练阶段，研究团队使用 Codex 监控和调试训练任务，帮助在整个训练过程中追踪模型行为变化，对交互进行深入分析，并提出改进方案。

在数据分析方面，一位数据科学家与 GPT-5.3-Codex 协作，构建了新的数据管道，并以远超传统仪表盘工具的方式对结果进行了可视化。

随后，研究人员与 Codex 一起分析这些结果，模型在不到三分钟内，就从数千个数据点中提炼出了关键洞见。

工程团队则借助 Codex 优化和适配 GPT-5.3-Codex 的测试与运行框架。

当开始出现影响用户体验的异常边缘案例时，团队成员通过 Codex 定位到了上下文渲染相关的缺陷，并进一步追溯到了缓存命中率偏低的原因。

Two More Things

与 Anthropic 的巅峰对决的确相当精彩，但 OpenAI 其实还有两个值得关注的大动作。

1、Frontier：一个帮助企业打造「AI 同事」的平台

这是 OpenAI 一项相当重磅的 ToB 业务，目标很明确：让 Agent 真正进入公司工作流。

具体实现方式，包括共享上下文、上手式的入职引导、带反馈的实践学习，以及清晰的权限与边界。

据悉，HP、Intuit、Oracle、State Farm、Thermo Fisher 和 Uber 等知名企业，已经早早采用了 Frontier。

2、AI4S：OpenAI 和 Ginkgo 联手，用 GPT-5 把蛋白质合成成本打下来了 40%

这是一家做合成生物学的实验室型公司，他们将 GPT-5 接入一座自主实验室，让模型可以提出实验方案、规模化执行实验、从结果中学习，并决定下一步该尝试什么，完整跑通了一个闭环。

2026 年，或许是 AI4S 加速演进的一年。

不过，在 OpenAI 忙着和 Anthropic 对狙，网友们被一系列新动态弄的眼花缭乱的同时，评论区也有另一种声音。

把 4o 还给我！！

直到现在，奥特曼依然没有回应 4o 被彻底下架这件事。

或许，真的是和 Anthropic 打得太忙了。

参考链接：

[ 1 ] https://openai.com/index/introducing-gpt-5-3-codex/

[ 2 ] https://openai.com/index/introducing-openai-frontier/

[ 3 ] https://x.com/i/trending/2019496485793198148

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度「AI 100」产品榜单正式发布！

量子位智库通过三大板块——最强综合实力的「旗舰 AI 100」、最具未来潜力的「创新 AI 100」和十大热门赛道代表产品，全面梳理 2025 年度国内 C 端 AI 产品的发展脉络与创新成果。

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签