正面硬刚Claude Opus 4.6，OpenAI 当天发布GPT-5.3-Codex，谁强？

如果你需要深度的逻辑分析、写长篇的技术文档、或者重构核心算法，去抱 Claude Opus 4.6 的大腿，它的细腻和严谨目前无人能敌。如果你需要快速构建产品原型（MVP）、搭建全栈应用、或者需要一个能帮你操作服务器、跑脚本的“全能干事”，GPT-5.3-Codex 绝对会让你爽到飞起。

人工智能研究所

554人浏览 · 2026-02-08 08:00:00

人工智能研究所 · 2026-02-08 08:00:00 发布

真的，这行干久了，心脏得大一点。前脚 Anthropic 刚扔出“自省能力超强”的 Opus 4.6，后脚 OpenAI 就发布了 GPT-5.3-Codex。这已经不是简单的版本更新了，这简直是两家巨头拿着核武器在咱们家门口对轰。

OpenAI 的新怪物：GPT-5.3-Codex

如果 Claude Opus 4.6 像是一个“为了写好代码会停下来抽根烟思考人生”的资深架构师，那今天的 GPT-5.3-Codex 就像是一个喝了五罐红牛、还会自我进化的全能特种兵。

OpenAI 这次的更新文档里，有几句话让我读得背脊发凉：

1. “我生我自己”：AI 进化的闭环已经通过了

这是文档里最不起眼、但最细思极恐的一句话：“GPT-5.3-Codex 是首个在自身创建过程中发挥了关键作用的模型。”
OpenAI 的团队在训练它的时候，已经不是人类工程师在那儿苦哈哈地看日志了，而是用早期版本的 GPT-5.3-Codex 去调试它自己的训练过程。

它做了什么？
它监控训练运行，追踪模式，甚至发现了一个导致“低缓存命中率”的底层 Bug。
这意味着什么？
意味着 AI 开发 AI 的飞轮已经转起来了。它能理解复杂的底层基础设施，甚至能帮工程团队动态缩放 GPU 集群来应对流量。
体感差异：
以前的模型遇到系统级问题会瞎编，现在的模型能像个资深运维一样，去查根因（Root Cause Analysis）

2. 也是最恐怖的一点：它有了“产品经理”的审美

作为一个全栈，我最怕 AI 写前端。不是代码跑不通，而是它写的页面实在是“土”。你让它写个价格表，它就给你画个表格。

但在 GPT-5.3-Codex 的测试案例里，有一个细节让我破防了：
OpenAI 让它做一个落地页（Landing Page）。

GPT-5.2 (前代)：
乖乖算了个年费总额摆上去。
GPT-5.3-Codex：
它自动把年费折算成了“每月只需 XX 元”，因为这样看起来更便宜、更有吸引力；它还自动搞了个用户评价轮播图（Carousel），而且编了三个不同的好评，而不是复制粘贴同一个。

这说明了什么？
它不再是机械地执行指令（Instruction Following），它开始有了意图理解（Intent Understanding）和商业直觉。它知道“做一个落地页”的目的是“把东西卖出去”，所以它会优化 UX（用户体验）。
这对于初级前端和 UI 设计师来说，真的是降维打击。

3. OSWorld 里的“屠杀”：它真的会玩电脑

文档里提到了一个叫 OSWorld 的基准测试，这是让 AI 看着屏幕操作电脑。

GPT-5.2 的准确率是 37.9%。
人类的平均水平是 72%。
GPT-5.3-Codex 干到了 64.7%。

在 OSWorld-Verified 中，模型通过视觉能力来完成多样化的计算机任务。人类得分约为 72%

这个跨度非常吓人。这意味着它已经无限接近人类操作电脑的水平。
以前我们说 Agent（智能体），大部分是吹牛，因为它们只能在沙盒里玩。但 GPT-5.3-Codex 能运行终端命令（Terminal-Bench 2.0 最高分），能自己跑测试，能自己修 Bug。

官方提到的那个“赛车游戏二代”和“潜水游戏”的例子，它消耗了数百万 Token，自主迭代，自己改 Bug。这已经不是“写代码”了，这是在“做项目”。

4. 交互方式的革命：它学会了“汇报工作”

这是给所有 Tech Lead 的福音。
以前用 AI，你要么等它把代码吐完，要么看它报错。
GPT-5.3-Codex 引入了“交互式引导”。它现在的行为模式像极了一个靠谱的下属：

“老板，我现在准备改这个数据库结构，可能会影响到旧数据，这一步您确认吗？”

它会在长任务运行中提供状态更新（Status Updates）。你可以在它干活的时候随时打断它，修正它的方向，而不用等它全干完了再推倒重来。文档里那个数据科学家用它三分钟总结几千个数据点的故事，就是这种交互的最佳佐证。

总结：它到底强在哪？

如果非要用一句话总结 GPT-5.3-Codex 的突破，那就是：
它从“代码生成器（Code Generator）”进化成了“软件工程师（Software Engineer）”。

代码生成器
只会把需求翻译成代码。
软件工程师
会考虑部署、会考虑 UI 好不好看、会自己去服务器查日志、会为了省钱去优化 GPU 集群，甚至会为了卖得更好去优化价格显示。

OpenAI 甚至在这个版本里开放了网络安全授信访问，因为它已经强到可以发现开源软件里的 0-day 漏洞了。

正面硬刚：Claude Opus 4.6 vs GPT-5.3-Codex

为了不让大家选得纠结，我结合两边的特性，做了个对比。

Round 1：脑回路的差异

Claude Opus 4.6：
它的强项在于 “慢思考”（Adaptive Thinking）。遇到难题，它会先规划，列出 Roadmap，甚至预判坑在哪里。它特别适合处理那些逻辑极其复杂、需要长上下文（100万 Token！）支撑的“架构级任务”。它像个温文尔雅的导师，教你写出漂亮的代码。
GPT-5.3-Codex：
它是 “实干派”。它不仅有了 GPT-5.2 的推理能力，还融合了极强的工程执行力。它更像是一个不知疲倦的高级外包团队 Leader，你说“我要个赛车游戏”，它噼里啪啦一顿操作，终端命令满天飞，直接给你个可运行的 Demo。它更擅长“把东西做出来”。

Round 2：上下文与记忆

Claude Opus 4.6：
100 万 Token 的上下文确实是目前的天花板。如果你要重构一个几百个文件的旧项目，Claude 是首选，它能像大海一样包容所有的屎山代码而不遗忘。
GPT-5.3-Codex：
虽然 OpenAI 没在这个文档里强调 Token 数量，但他们强调了“不会丢失上下文的长期运行。这是一种更动态的记忆方式。它像是一个记性很好的同事，哪怕干了一整天活，依然记得早上例会上你随口提的需求。

Round 3：交互体验

Claude Opus 4.6：
感觉是在和一个智者对话。你需要用 /effort 参数去调整它的思考深度。
GPT-5.3-Codex：
感觉是在带团队。OpenAI 这次主打“交互式引导”。它干活的时候会给你汇报：“老板，我现在要改数据库了，行不行？”你可以实时打断它、纠正它。这种“人在回路（Human-in-the-loop）的感觉，让它少了很多AI常有的“自作聪明”带来的灾难。

作为一个真实的人，我的心里话

说实话，读完 GPT-5.3-Codex 的报告，我最感动的不是它跑分多高，而是那个“Alpha 测试期间的故事”。

OpenAI 提到，有一位数据科学家用 Codex 建了个数据流水线，Codex 在三分钟内帮他总结了数千个数据点的洞察。这种时刻，是每一个技术人最能共情的瞬间——原本需要枯燥熬夜几个晚上的活儿，AI 帮你三分钟搞定了，你不仅没有被替代的恐惧，反而有一种从繁琐中解脱出来的自由感。

选谁？我的建议是：

如果你需要深度的逻辑分析、写长篇的技术文档、或者重构核心算法，去抱 Claude Opus 4.6 的大腿，它的细腻和严谨目前无人能敌。
如果你需要快速构建产品原型（MVP）、搭建全栈应用、或者需要一个能帮你操作服务器、跑脚本的“全能干事”，GPT-5.3-Codex 绝对会让你爽到飞起。

尾声

在这个技术爆炸的周末，我看着屏幕上这两个 AI 巨头互殴，心里其实挺暖的。

因为无论它们谁赢，赢家其实都是我们。我们正处于一个“只要你有想法，就有能力实现”的黄金时代。以前限制我们的是打字速度和掉落的头发，现在，限制我们的可能真的只剩下想象力了。

更多transformer，VIT，swin tranformer
参考头条号：人工智能研究所
v号：人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026牛客寒假训练营a，h自用题解

题解：由于或运算只会使a|b<=a+b，因此i+1以前的位置的状态不会影响i+1，考虑dp，从a|b=a+b的前提为a&b=0入手，从i向前寻找一段最长的区间使得区间内所有数|的值与+相等，更新i的方案数为从区间左端点的方案数到区间右端点的方案数之和，为了降低时间复杂度可以使用前缀和进行维护，ai为0时跳过，由于一遍遍用i--的方式去找区间左端点太费时间，因此我们需要在输入时存储每一个数字的上一个