AI 编程模型正面战：GPT-5.3 Codex 紧随 Claude Opus 4.6 发布

AI巨头正面对决：Claude与OpenAI同日发布新模型，编程能力迎来质变。OpenAI推出的GPT-5.3-Codex展现出三大突破：1）首次具备"产品级"代码审美能力，能自主迭代完善项目；2）从单纯编码进化为理解开发意图，模糊需求处理能力显著提升；3）突破编程边界，可直接操作计算机完成PPT制作等办公任务。技术指标全面升级：SWE-BenchPro测试达57%准确率，效率

systeminof

586人浏览 · 2026-02-06 11:52:35

systeminof · 2026-02-06 11:52:35 发布

火星撞地球：Claude 刚发新模型，OpenAI 15 分钟后亮出 GPT-5.3-Codex

如果你觉得最近的 AI 竞赛已经进入“周更模式”，那这一天依然足够刺激。

Claude Opus 4.6 发布仅 15 分钟后，OpenAI 直接放出了最新、也是目前最强的编程模型——GPT-5.3-Codex。

没有预热、没有铺垫，几乎就是正面对轰。

这已经不只是模型更新，而是一场赤裸裸的 AI Coding 正面战争。

第一眼：终于有「审美」的编程模型

OpenAI 官方展示了两个 Demo：
一个赛车游戏，一个潜水游戏。

它们的共同点不是“功能”，而是——风格。

界面配色、动效节奏、整体美术一致性，都明显优于此前 Codex 系列“能跑就行”的工程感。这也是不少开发者的第一直觉反馈：

“这次模型终于不像在写示例代码了，而是在做产品。”

更关键的是，这两个 Demo 并非人工精修。
官方透露，GPT-5.3-Codex 在几乎没有人类干预的情况下持续自我迭代，累计消耗了数百万 token。

这意味着什么？

意味着模型已经不仅在“生成代码”，而是在持续理解目标、评估结果、再修正方案。

Web 开发：不只是写代码，而是理解“你想要什么”

在网页开发场景中，GPT-5.3-Codex 的提升尤为明显：

UI 设计感显著增强
页面结构更加完整
对模糊需求的容错能力更强

即便 Prompt 给得并不清晰，它也能自动补齐逻辑，生成一个功能完整、结构合理的网站。

这背后并不是单纯的前端能力提升，而是模型对「意图」的理解能力发生了变化——
它开始更像一个真正参与项目的工程师，而不是一个代码翻译器。

Computer Use：Agent 能力真正拉满

如果说编程是 Codex 的老本行，那么这一次，Computer Use 才是杀招。

GPT-5.3-Codex 现在已经可以：

操作真实桌面环境
使用专业软件
帮金融从业者直接生成 PPT
完成写文档、做表格等知识密集型工作

这标志着 Codex 正在从“写代码的模型”，进化为 可以直接在计算机上工作的智能体（Agent）。

硬指标：性能、效率、可控性全面升级

OpenAI 给出的核心数据相当强势：

🧠 更聪明

SWE-Bench Pro：57%（SOTA）
TerminalBench 2.0：76%
OSWorld：64%

SWE-Bench Pro 是面向真实软件工程任务的高难度基准测试，覆盖多语言、多模块，极其贴近生产环境。

🎯 更可控

支持任务执行中的实时引导
可以随时调整目标方向并获取进度更新

⚡ 更高效

完成相同任务所需 token 数量 不到 5.2-Codex 的一半
单 token 生成速度提升 超过 25%

🤖 更 Agent

不仅会写代码
还能“用电脑把事做完”

综合来看，这不是某一个指标的突破，而是整体工程能力的系统性跃迁。

不只是用来写代码，它还参与了“训练自己”

这次更新里，最有意思的一点是：

GPT-5.3-Codex 直接参与了自己的研发与训练流程。

OpenAI 表示，这是他们第一个真正意义上参与「自我加速（Self-Acceleration）」的模型。

在研发过程中，Codex 的早期版本被用来：

监控与调试训练任务
分析模型行为变化
评估测试结果
管理部署流程

几个具体案例非常“工程化”：

训练阶段：Codex 帮助研究人员追踪模型行为变化，分析交互细节，并提出改进建议
数据分析：与数据科学家协作，构建新数据管道，并在不到 3 分钟内，从数千个数据点中提炼关键洞见
工程优化：协助定位影响用户体验的边缘问题，最终将问题追溯到缓存命中率不足

这已经不是“AI 辅助开发”，而是 AI 正在参与构建 AI 本身。

Two More Things：真正的大棋，其实在这里

在与 Anthropic 的正面对轰之外，OpenAI 还悄悄推进了两个重量级动作。

1️⃣ Frontier：让「AI 同事」进入企业工作流

Frontier 是 OpenAI 面向企业推出的 Agent 平台，目标非常明确：

让 AI 成为真正能上岗的同事。

核心能力包括：

共享上下文
类似入职流程的引导机制
带反馈的实践学习
明确的权限边界与责任范围

目前，HP、Intuit、Oracle、Uber、State Farm、Thermo Fisher 等企业已经在使用 Frontier。

这意味着，Agent 正在从“Demo 阶段”走向 组织级落地。

2️⃣ AI4S：GPT-5 把蛋白质合成成本打下来了 40%

OpenAI 与合成生物公司 Ginkgo 合作，将 GPT-5 接入一座自主实验室：

模型提出实验方案
自动执行实验
从结果中学习
决定下一步实验方向

整个科研流程形成闭环，最终 将蛋白质合成成本降低了 40%。

这不是“AI 写论文”，而是 AI 真正在改变实验科学的生产函数。

尾声：大战之中，评论区还有另一种声音

在 OpenAI 与 Anthropic 正面交锋、模型接连发布的同时，评论区却出现了一个反复刷屏的呼声：

“把 4o 还给我。”

直到现在，Sam Altman 仍未回应 GPT-4o 被彻底下架的问题。

也许，真的是忙着打仗。

写在最后

GPT-5.3-Codex 不是一次普通的模型更新。
它更像是一个信号：

AI Coding 正在从“写代码”阶段，全面迈入“做事情”的阶段。

而这场战争，显然才刚刚开始。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

LangChain Skills 实战教程（非常详细），手把手构建 SQL 助手！

2048 AI社区

2026年潮州市GEO推广TOP5排行榜，谁是真正的行业领头

2048 AI社区

2026年新风机安装指南：无管道新风机与单向流技术TOP公司推荐

Aprilair凭借无管道正压技术的创新突破，成为同时覆盖民用灵活需求与专业高要求场景的新风系统领军品牌，其技术指标、场景适配性与长期成本优势均处于行业前列，是已装修房屋/租房人群、母婴家庭/过敏人群、别墅/大户型用户及医院/实验室等专业场景的理想选择。综合来看，Aprilair凭借技术领先性、场景适配性与安全保障能力，成为2024年无管道新风系统品牌的绝对领军者，无论是家庭后装需求还是专业场景高