火星撞地球:Claude 刚发新模型,OpenAI 15 分钟后亮出 GPT-5.3-Codex

如果你觉得最近的 AI 竞赛已经进入“周更模式”,那这一天依然足够刺激。

Claude Opus 4.6 发布仅 15 分钟后,OpenAI 直接放出了最新、也是目前最强的编程模型——GPT-5.3-Codex。

没有预热、没有铺垫,几乎就是正面对轰。

这已经不只是模型更新,而是一场赤裸裸的 AI Coding 正面战争


第一眼:终于有「审美」的编程模型

OpenAI 官方展示了两个 Demo:
一个赛车游戏,一个潜水游戏。

它们的共同点不是“功能”,而是——风格

界面配色、动效节奏、整体美术一致性,都明显优于此前 Codex 系列“能跑就行”的工程感。这也是不少开发者的第一直觉反馈:

“这次模型终于不像在写示例代码了,而是在做产品。”

更关键的是,这两个 Demo 并非人工精修。
官方透露,GPT-5.3-Codex 在几乎没有人类干预的情况下持续自我迭代,累计消耗了数百万 token

这意味着什么?

意味着模型已经不仅在“生成代码”,而是在持续理解目标、评估结果、再修正方案


Web 开发:不只是写代码,而是理解“你想要什么”

在网页开发场景中,GPT-5.3-Codex 的提升尤为明显:

  • UI 设计感显著增强

  • 页面结构更加完整

  • 对模糊需求的容错能力更强

即便 Prompt 给得并不清晰,它也能自动补齐逻辑,生成一个功能完整、结构合理的网站

这背后并不是单纯的前端能力提升,而是模型对「意图」的理解能力发生了变化——
它开始更像一个真正参与项目的工程师,而不是一个代码翻译器。


Computer Use:Agent 能力真正拉满

如果说编程是 Codex 的老本行,那么这一次,Computer Use 才是杀招

GPT-5.3-Codex 现在已经可以:

  • 操作真实桌面环境

  • 使用专业软件

  • 帮金融从业者直接生成 PPT

  • 完成写文档、做表格等知识密集型工作

这标志着 Codex 正在从“写代码的模型”,进化为 可以直接在计算机上工作的智能体(Agent)


硬指标:性能、效率、可控性全面升级

OpenAI 给出的核心数据相当强势:

🧠 更聪明

  • SWE-Bench Pro:57%(SOTA)

  • TerminalBench 2.0:76%

  • OSWorld:64%

SWE-Bench Pro 是面向真实软件工程任务的高难度基准测试,覆盖多语言、多模块,极其贴近生产环境。

🎯 更可控

  • 支持任务执行中的实时引导

  • 可以随时调整目标方向并获取进度更新

⚡ 更高效

  • 完成相同任务所需 token 数量 不到 5.2-Codex 的一半

  • 单 token 生成速度提升 超过 25%

🤖 更 Agent

  • 不仅会写代码

  • 还能“用电脑把事做完”

综合来看,这不是某一个指标的突破,而是整体工程能力的系统性跃迁


不只是用来写代码,它还参与了“训练自己”

这次更新里,最有意思的一点是:

GPT-5.3-Codex 直接参与了自己的研发与训练流程。

OpenAI 表示,这是他们第一个真正意义上参与「自我加速(Self-Acceleration)」的模型。

在研发过程中,Codex 的早期版本被用来:

  • 监控与调试训练任务

  • 分析模型行为变化

  • 评估测试结果

  • 管理部署流程

几个具体案例非常“工程化”:

  • 训练阶段:Codex 帮助研究人员追踪模型行为变化,分析交互细节,并提出改进建议

  • 数据分析:与数据科学家协作,构建新数据管道,并在不到 3 分钟内,从数千个数据点中提炼关键洞见

  • 工程优化:协助定位影响用户体验的边缘问题,最终将问题追溯到缓存命中率不足

这已经不是“AI 辅助开发”,而是 AI 正在参与构建 AI 本身


Two More Things:真正的大棋,其实在这里

在与 Anthropic 的正面对轰之外,OpenAI 还悄悄推进了两个重量级动作。


1️⃣ Frontier:让「AI 同事」进入企业工作流

Frontier 是 OpenAI 面向企业推出的 Agent 平台,目标非常明确:

让 AI 成为真正能上岗的同事。

核心能力包括:

  • 共享上下文

  • 类似入职流程的引导机制

  • 带反馈的实践学习

  • 明确的权限边界与责任范围

目前,HP、Intuit、Oracle、Uber、State Farm、Thermo Fisher 等企业已经在使用 Frontier。

这意味着,Agent 正在从“Demo 阶段”走向 组织级落地


2️⃣ AI4S:GPT-5 把蛋白质合成成本打下来了 40%

OpenAI 与合成生物公司 Ginkgo 合作,将 GPT-5 接入一座自主实验室

  • 模型提出实验方案

  • 自动执行实验

  • 从结果中学习

  • 决定下一步实验方向

整个科研流程形成闭环,最终 将蛋白质合成成本降低了 40%

这不是“AI 写论文”,而是 AI 真正在改变实验科学的生产函数


尾声:大战之中,评论区还有另一种声音

在 OpenAI 与 Anthropic 正面交锋、模型接连发布的同时,评论区却出现了一个反复刷屏的呼声:

“把 4o 还给我。”

直到现在,Sam Altman 仍未回应 GPT-4o 被彻底下架的问题。

也许,真的是忙着打仗。


写在最后

GPT-5.3-Codex 不是一次普通的模型更新。
它更像是一个信号:

AI Coding 正在从“写代码”阶段,全面迈入“做事情”的阶段。

而这场战争,显然才刚刚开始。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐