正面硬刚Claude Opus 4.6,OpenAI 当天发布GPT-5.3-Codex,谁强?
如果你需要深度的逻辑分析、写长篇的技术文档、或者重构核心算法,去抱 Claude Opus 4.6 的大腿,它的细腻和严谨目前无人能敌。如果你需要快速构建产品原型(MVP)、搭建全栈应用、或者需要一个能帮你操作服务器、跑脚本的“全能干事”,GPT-5.3-Codex 绝对会让你爽到飞起。
真的,这行干久了,心脏得大一点。前脚 Anthropic 刚扔出“自省能力超强”的 Opus 4.6,后脚 OpenAI 就发布了 GPT-5.3-Codex。这已经不是简单的版本更新了,这简直是两家巨头拿着核武器在咱们家门口对轰。

OpenAI 的新怪物:GPT-5.3-Codex
如果 Claude Opus 4.6 像是一个“为了写好代码会停下来抽根烟思考人生”的资深架构师,那今天的 GPT-5.3-Codex 就像是一个喝了五罐红牛、还会自我进化的全能特种兵。
OpenAI 这次的更新文档里,有几句话让我读得背脊发凉:

1. “我 生 我 自 己”:AI 进化的闭环已经通过了
这是文档里最不起眼、但最细思极恐的一句话:“GPT-5.3-Codex 是首个在自身创建过程中发挥了关键作用的模型。”
OpenAI 的团队在训练它的时候,已经不是人类工程师在那儿苦哈哈地看日志了,而是用早期版本的 GPT-5.3-Codex 去调试它自己的训练过程。
- 它做了什么?
它监控训练运行,追踪模式,甚至发现了一个导致“低缓存命中率”的底层 Bug。
- 这意味着什么?
意味着 AI 开发 AI 的飞轮已经转起来了。它能理解复杂的底层基础设施,甚至能帮工程团队动态缩放 GPU 集群来应对流量。
- 体感差异:
以前的模型遇到系统级问题会瞎编,现在的模型能像个资深运维一样,去查根因(Root Cause Analysis)

2. 也是最恐怖的一点:它有了“产品经理”的审美
作为一个全栈,我最怕 AI 写前端。不是代码跑不通,而是它写的页面实在是“土”。你让它写个价格表,它就给你画个表格。

但在 GPT-5.3-Codex 的测试案例里,有一个细节让我破防了:
OpenAI 让它做一个落地页(Landing Page)。
- GPT-5.2 (前代):
乖乖算了个年费总额摆上去。
- GPT-5.3-Codex:
它自动把年费折算成了“每月只需 XX 元”,因为这样看起来更便宜、更有吸引力;它还自动搞了个用户评价轮播图(Carousel),而且编了三个不同的好评,而不是复制粘贴同一个。

这说明了什么?
它不再是机械地执行指令(Instruction Following),它开始有了意图理解(Intent Understanding)和商业直觉。它知道“做一个落地页”的目的是“把东西卖出去”,所以它会优化 UX(用户体验)。
这对于初级前端和 UI 设计师来说,真的是降维打击。

3. OSWorld 里的“屠杀”:它真的会玩电脑
文档里提到了一个叫 OSWorld 的基准测试,这是让 AI 看着屏幕操作电脑。
-
GPT-5.2 的准确率是 37.9%。
-
人类的平均水平是 72%。
- GPT-5.3-Codex 干到了 64.7%。

在 OSWorld-Verified 中,模型通过视觉能力来完成多样化的计算机任务。人类得分约为 72%
这个跨度非常吓人。这意味着它已经无限接近人类操作电脑的水平。
以前我们说 Agent(智能体),大部分是吹牛,因为它们只能在沙盒里玩。但 GPT-5.3-Codex 能运行终端命令(Terminal-Bench 2.0 最高分),能自己跑测试,能自己修 Bug。

官方提到的那个“赛车游戏二代”和“潜水游戏”的例子,它消耗了数百万 Token,自主迭代,自己改 Bug。这已经不是“写代码”了,这是在“做项目”。

4. 交互方式的革命:它学会了“汇报工作”
这是给所有 Tech Lead 的福音。
以前用 AI,你要么等它把代码吐完,要么看它报错。
GPT-5.3-Codex 引入了“交互式引导”。它现在的行为模式像极了一个靠谱的下属:
“老板,我现在准备改这个数据库结构,可能会影响到旧数据,这一步您确认吗?”

它会在长任务运行中提供状态更新(Status Updates)。你可以在它干活的时候随时打断它,修正它的方向,而不用等它全干完了再推倒重来。文档里那个数据科学家用它三分钟总结几千个数据点的故事,就是这种交互的最佳佐证。

总结:它到底强在哪?
如果非要用一句话总结 GPT-5.3-Codex 的突破,那就是:
它从“代码生成器(Code Generator)”进化成了“软件工程师(Software Engineer)”。
- 代码生成器
只会把需求翻译成代码。
- 软件工程师
会考虑部署、会考虑 UI 好不好看、会自己去服务器查日志、会为了省钱去优化 GPU 集群,甚至会为了卖得更好去优化价格显示。
OpenAI 甚至在这个版本里开放了网络安全授信访问,因为它已经强到可以发现开源软件里的 0-day 漏洞了。

正面硬刚:Claude Opus 4.6 vs GPT-5.3-Codex
为了不让大家选得纠结,我结合两边的特性,做了个对比。

Round 1:脑回路的差异
- Claude Opus 4.6:
它的强项在于 “慢思考”(Adaptive Thinking)。遇到难题,它会先规划,列出 Roadmap,甚至预判坑在哪里。它特别适合处理那些逻辑极其复杂、需要长上下文(100万 Token!)支撑的“架构级任务”。它像个温文尔雅的导师,教你写出漂亮的代码。
- GPT-5.3-Codex:
它是 “实干派”。它不仅有了 GPT-5.2 的推理能力,还融合了极强的工程执行力。它更像是一个不知疲倦的高级外包团队 Leader,你说“我要个赛车游戏”,它噼里啪啦一顿操作,终端命令满天飞,直接给你个可运行的 Demo。它更擅长“把东西做出来”。
Round 2:上下文与记忆
- Claude Opus 4.6:
100 万 Token 的上下文确实是目前的天花板。如果你要重构一个几百个文件的旧项目,Claude 是首选,它能像大海一样包容所有的屎山代码而不遗忘。
- GPT-5.3-Codex:
虽然 OpenAI 没在这个文档里强调 Token 数量,但他们强调了“不会丢失上下文的长期运行。这是一种更动态的记忆方式。它像是一个记性很好的同事,哪怕干了一整天活,依然记得早上例会上你随口提的需求。
Round 3:交互体验
- Claude Opus 4.6:
感觉是在和一个智者对话。你需要用 /effort 参数去调整它的思考深度。
- GPT-5.3-Codex:
感觉是在带团队。OpenAI 这次主打“交互式引导”。它干活的时候会给你汇报:“老板,我现在要改数据库了,行不行?”你可以实时打断它、纠正它。这种“人在回路(Human-in-the-loop)的感觉,让它少了很多AI常有的“自作聪明”带来的灾难。
作为一个真实的人,我的心里话
说实话,读完 GPT-5.3-Codex 的报告,我最感动的不是它跑分多高,而是那个“Alpha 测试期间的故事”。
OpenAI 提到,有一位数据科学家用 Codex 建了个数据流水线,Codex 在三分钟内帮他总结了数千个数据点的洞察。这种时刻,是每一个技术人最能共情的瞬间——原本需要枯燥熬夜几个晚上的活儿,AI 帮你三分钟搞定了,你不仅没有被替代的恐惧,反而有一种从繁琐中解脱出来的自由感。
选谁?我的建议是:
-
如果你需要深度的逻辑分析、写长篇的技术文档、或者重构核心算法,去抱 Claude Opus 4.6 的大腿,它的细腻和严谨目前无人能敌。
-
如果你需要快速构建产品原型(MVP)、搭建全栈应用、或者需要一个能帮你操作服务器、跑脚本的“全能干事”,GPT-5.3-Codex 绝对会让你爽到飞起。
尾声
在这个技术爆炸的周末,我看着屏幕上这两个 AI 巨头互殴,心里其实挺暖的。
因为无论它们谁赢,赢家其实都是我们。我们正处于一个“只要你有想法,就有能力实现”的黄金时代。以前限制我们的是打字速度和掉落的头发,现在,限制我们的可能真的只剩下想象力了。
更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:人工智能研究Suo, 启示AI科技
动画详解transformer 在线视频教程


更多推荐


所有评论(0)