AI 编程模型正面战:GPT-5.3 Codex 紧随 Claude Opus 4.6 发布
AI巨头正面对决:Claude与OpenAI同日发布新模型,编程能力迎来质变。OpenAI推出的GPT-5.3-Codex展现出三大突破:1)首次具备"产品级"代码审美能力,能自主迭代完善项目;2)从单纯编码进化为理解开发意图,模糊需求处理能力显著提升;3)突破编程边界,可直接操作计算机完成PPT制作等办公任务。技术指标全面升级:SWE-BenchPro测试达57%准确率,效率
火星撞地球:Claude 刚发新模型,OpenAI 15 分钟后亮出 GPT-5.3-Codex
如果你觉得最近的 AI 竞赛已经进入“周更模式”,那这一天依然足够刺激。
Claude Opus 4.6 发布仅 15 分钟后,OpenAI 直接放出了最新、也是目前最强的编程模型——GPT-5.3-Codex。
没有预热、没有铺垫,几乎就是正面对轰。
这已经不只是模型更新,而是一场赤裸裸的 AI Coding 正面战争。
第一眼:终于有「审美」的编程模型
OpenAI 官方展示了两个 Demo:
一个赛车游戏,一个潜水游戏。
它们的共同点不是“功能”,而是——风格。
界面配色、动效节奏、整体美术一致性,都明显优于此前 Codex 系列“能跑就行”的工程感。这也是不少开发者的第一直觉反馈:
“这次模型终于不像在写示例代码了,而是在做产品。”
更关键的是,这两个 Demo 并非人工精修。
官方透露,GPT-5.3-Codex 在几乎没有人类干预的情况下持续自我迭代,累计消耗了数百万 token。
这意味着什么?
意味着模型已经不仅在“生成代码”,而是在持续理解目标、评估结果、再修正方案。
Web 开发:不只是写代码,而是理解“你想要什么”
在网页开发场景中,GPT-5.3-Codex 的提升尤为明显:
-
UI 设计感显著增强
-
页面结构更加完整
-
对模糊需求的容错能力更强
即便 Prompt 给得并不清晰,它也能自动补齐逻辑,生成一个功能完整、结构合理的网站。
这背后并不是单纯的前端能力提升,而是模型对「意图」的理解能力发生了变化——
它开始更像一个真正参与项目的工程师,而不是一个代码翻译器。
Computer Use:Agent 能力真正拉满
如果说编程是 Codex 的老本行,那么这一次,Computer Use 才是杀招。
GPT-5.3-Codex 现在已经可以:
-
操作真实桌面环境
-
使用专业软件
-
帮金融从业者直接生成 PPT
-
完成写文档、做表格等知识密集型工作
这标志着 Codex 正在从“写代码的模型”,进化为 可以直接在计算机上工作的智能体(Agent)。
硬指标:性能、效率、可控性全面升级
OpenAI 给出的核心数据相当强势:
🧠 更聪明
-
SWE-Bench Pro:57%(SOTA)
-
TerminalBench 2.0:76%
-
OSWorld:64%
SWE-Bench Pro 是面向真实软件工程任务的高难度基准测试,覆盖多语言、多模块,极其贴近生产环境。
🎯 更可控
-
支持任务执行中的实时引导
-
可以随时调整目标方向并获取进度更新
⚡ 更高效
-
完成相同任务所需 token 数量 不到 5.2-Codex 的一半
-
单 token 生成速度提升 超过 25%
🤖 更 Agent
-
不仅会写代码
-
还能“用电脑把事做完”
综合来看,这不是某一个指标的突破,而是整体工程能力的系统性跃迁。
不只是用来写代码,它还参与了“训练自己”
这次更新里,最有意思的一点是:
GPT-5.3-Codex 直接参与了自己的研发与训练流程。
OpenAI 表示,这是他们第一个真正意义上参与「自我加速(Self-Acceleration)」的模型。
在研发过程中,Codex 的早期版本被用来:
-
监控与调试训练任务
-
分析模型行为变化
-
评估测试结果
-
管理部署流程
几个具体案例非常“工程化”:
-
训练阶段:Codex 帮助研究人员追踪模型行为变化,分析交互细节,并提出改进建议
-
数据分析:与数据科学家协作,构建新数据管道,并在不到 3 分钟内,从数千个数据点中提炼关键洞见
-
工程优化:协助定位影响用户体验的边缘问题,最终将问题追溯到缓存命中率不足
这已经不是“AI 辅助开发”,而是 AI 正在参与构建 AI 本身。
Two More Things:真正的大棋,其实在这里
在与 Anthropic 的正面对轰之外,OpenAI 还悄悄推进了两个重量级动作。
1️⃣ Frontier:让「AI 同事」进入企业工作流
Frontier 是 OpenAI 面向企业推出的 Agent 平台,目标非常明确:
让 AI 成为真正能上岗的同事。
核心能力包括:
-
共享上下文
-
类似入职流程的引导机制
-
带反馈的实践学习
-
明确的权限边界与责任范围
目前,HP、Intuit、Oracle、Uber、State Farm、Thermo Fisher 等企业已经在使用 Frontier。
这意味着,Agent 正在从“Demo 阶段”走向 组织级落地。
2️⃣ AI4S:GPT-5 把蛋白质合成成本打下来了 40%
OpenAI 与合成生物公司 Ginkgo 合作,将 GPT-5 接入一座自主实验室:
-
模型提出实验方案
-
自动执行实验
-
从结果中学习
-
决定下一步实验方向
整个科研流程形成闭环,最终 将蛋白质合成成本降低了 40%。
这不是“AI 写论文”,而是 AI 真正在改变实验科学的生产函数。
尾声:大战之中,评论区还有另一种声音
在 OpenAI 与 Anthropic 正面交锋、模型接连发布的同时,评论区却出现了一个反复刷屏的呼声:
“把 4o 还给我。”
直到现在,Sam Altman 仍未回应 GPT-4o 被彻底下架的问题。
也许,真的是忙着打仗。
写在最后
GPT-5.3-Codex 不是一次普通的模型更新。
它更像是一个信号:
AI Coding 正在从“写代码”阶段,全面迈入“做事情”的阶段。
而这场战争,显然才刚刚开始。
更多推荐


所有评论(0)