Opus 4.6 vs. Codex 5.3

2026年2月5日上午9:45刚过(太平洋时间),Anthropic发布了Claude Opus 4.6,20分钟后,OpenAI以GPT-5.3-Codex进行反击。

图片

有了这些模型,我们正进入数字同事时代,它们需要与技术水平相当的编排和项目管理能力。

这些发布代表了不同的设计理念。GPT-5.3-Codex感觉像是一个务实的工程师,即更快、更高效、乐于被引导。它在构建和调试代码、运行测试套件以及与现有开发者工具集成时表现出色。

图片

单样本使用 **GPT-5.3-Codex**在追查棘手错误或探索设计方案时,任务中交互的能力特别有价值。

另一方面,Claude Opus 4.6感觉像是一个深思熟虑的架构师。其大型上下文窗口允许它摄取整个代码库或长篇需求文档,并在多个推理线程中保持连贯性。代理团队范式邀请将工作分解为专门的角色,这正是真正的开发团队的运作方式。

图片

单样本使用 Opus 4.6然而,更深层次的推理伴随着更慢的响应和更高的token消耗。对于简单任务,它可能会显得过度思考,需要开发者调低其工作级别。

在实践中,"赢家"取决于你的工作负载。如果你需要快速原型制作、调试和紧密反馈循环的迭代,GPT-5.3-Codex可能提供更好的吞吐量。如果你的工作涉及分析 sprawling 代码库、起草法律文件或协调多代理工作流,Claude Opus 4.6提供无与伦比的上下文和自主性。

图片

一次性模拟器使用 **Opus 4.6**让我们进一步深入了解细节。

我想借鉴官方发布说明、基准数据和早期社区反应,从软件工程的角度比较这两款旗舰产品。

图片

Simon Willison的强制性鹈鹕## 1、Claude Opus 4.6: 100万上下文,专注知识工作

Opus 4.6通过更仔细地规划、持续长时间代理任务以及在大型代码库中更可靠地工作来改进其前身的编码技能。

头条特性是100万token上下文窗口(测试版),这是Opus级别模型首次提供如此容量。

一百万token相当于约75万字的输入,足以将几本小说或大型仓库的内容存入内存。

网络拆解这个长窗口与上下文压缩配对,这是一种自动总结转录旧部分以避免达到限制的机制。

Anthropic还引入了自适应思考工作控制:模型动态决定何时进行更深层次的推理,开发者可以在低、中、高和最大工作级别之间选择,以权衡速度、成本和智能。

图片

Threejs中原子的超现实模拟对于企业,Opus 4.6与Excel集成并首次推出PowerPoint插件,反映了Anthropic将AI深度嵌入办公工作流的雄心。

在基准测试中,Opus 4.6在多项评估中领先。

Opus 4.6在Terminal-Bench 2.0上获得最高分,并在Humanity’s Last ExamGDPval-AA(经济价值知识工作评估)上领先。

在GDPval-AA上,Opus 4.6还以约144个ELO点的优势击败OpenAI的GPT-5.2,意味着它在约70%的正面比较中获胜。

在长上下文检索方面有改进:Opus 4.6在大海捞针基准测试中得分76%,而早期的Sonnet 4.5模型为18.5%。

图片

一次性落地页另一个特性是代理团队

在Claude Code中,你可以组装多个AI代理,它们处理单独的子任务并自主协调。

图片

群集模式这专注于复合工作流,其中几个代理专门化并通信,而不是一个单一的整体助手尝试处理一切。

定价保持每百万输入token 5美元每百万输出token 25美元,但对于超过200k token的提示适用高级定价。

图片

你可以在官方公告中找到更多信息。

2、GPT-5.3-Codex: 更快的执行和交互式编码

OpenAI将GPT-5.3-Codex定位为其产品线中最具能力的代理编码模型。

官方发布说明将其描述为结合了GPT-5.2-Codex的编码性能GPT-5.2的推理和专业知识,同时快25%

图片

太阳朋克环境中恶魔追逐你的视频游戏该模型支持涉及研究、工具使用和复杂执行的长时间运行任务,开发者可以通过在任务中与其交互来"引导"其工作,而不会丢失上下文。

OpenAI指出,早期版本的GPT-5.3-Codex被用于调试自己的训练、管理部署和诊断评估,使其成为第一个为自己的创建做出实质性贡献的模型。

图片

我的世界克隆主要改进包括:

  • SWE-Bench ProTerminal-Bench 2.0上取得最先进的分数
  • OSWorld-Verified(桌面交互基准测试)上表现更好
  • Codex应用中更具交互性的监督
    图片

该应用现在在模型工作时提供频繁更新,用户可以在任务中调整方向(“引导”)。

OpenAI还将GPT-5.3-Codex分类为其准备框架下的 **“高能力”**网络安全模型,并正在通过可信访问程序部署分阶段访问。

图片

在硬件方面,GPT-5.3-Codex与NVIDIA GB200 NVL72系统共同设计并在此上提供服务,强调了计算进步如何使这些代理工作负载成为可能。

一次性落地页虽然OpenAI的公告没有指定上下文长度,但报告显示约40万token的上下文窗口, considerably 小于Opus 4.6的百万token,但仍比以前的Codex版本有显著增加,而且仍然非常有能力。

图片

新模型为等效工作使用更少的token,降低了开发者的成本。GPT-5.3-Codex在Terminal-Bench 2.0上达到77.3%(从GPT-5.2-Codex的64%跃升),在OSWorld-Verified上达到64.7%,表明在编码和通用计算机使用任务方面都有显著进步。

图片

动画精灵表## 3、个人观点:Codex 5.3 vs Opus 4.6

3.1 速度与效率 vs. 深度与广度

最显著的权衡是在速度和效率上下文容量和深度推理之间。

OpenAI的GPT-5.3-Codex设计为执行任务更快且使用更少的token。

在基准测试中,对于轻量级任务,它使用93.7%更少的token,总体快25%

这使其对实时编码以及成本和延迟重要的场景具有吸引力。

相比之下,Claude Opus 4.6旨在更深入地思考,Anthropic建议开发者如果模型对简单任务过度思考,则调低工作参数。

百万token上下文窗口允许它将巨大的文档或代码库保存在内存中,并回答问题而无需借助检索增强生成。

这对于研究、法律工作或跨领域代码分析非常强大,但对于简单的编码任务可能是过度杀伤(且更昂贵)。

3.2 代理工作流

两个模型都是显式代理的。

GPT-5.3-Codex可以运行数小时或数天的自主工作流,使用工具并响应引导。

OpenAI通过让模型在数百万token上自主构建两个网络游戏来展示这一点,突出持久性和工具集成。

用户可以在任务中查询模型,调整提示并无缝继续,这在迭代软件开发期间非常宝贵。

与此同时,Claude Opus 4.6引入了代理团队,多个代理并行处理不同的子任务并自主协调。

这类似于一个由专家组成的团队同时处理前端、后端和测试,可能会加速多组件项目。

Opus 4.6还支持自适应思考工作控制,为开发者提供显式杠杆来权衡推理深度与延迟或成本。

喜欢对模型认知预算进行细粒度控制的开发者可能会欣赏这种灵活性。

3.3 上下文窗口

对于代码合成,10万-20万token的窗口通常足够,因为代码可以分解为模块,相关片段可以检索。

更大的窗口会增加计算成本,如果模型的注意力分散得太广,可能会引入幻觉。

然而,对于后台自动化、法律分析和研究,能够摄取整个文档或多章摘要而无需检索是变革性的。

OpenAI强调长时间、复杂的任务和交互式工作流,而Anthropic将其模型定位为更深入思考和更自主。

最终,百万token上下文是过度杀伤还是游戏规则改变者取决于应用。

大型上下文模型减少对检索管道、向量数据库和思维链启发式的依赖,以更高的计算成本简化架构。

3.4 开发者体验和工具

除了原始模型性能外,周围的生态系统也很重要。

OpenAI的Codex应用现在提供更频繁的状态更新,并允许用户在执行中引导任务。

它与CLI、IDE扩展和Web集成,一旦安全缓解措施到位,承诺提供API访问。

OpenAI还为网络安全工作启动了可信访问程序,并将GPT-5.3-Codex分类为高能力层级。

Anthropic正在大力投资生产力集成。Opus 4.6获得改进的Excel支持和PowerPoint功能。

在Claude Code中,代理团队实现并行工作流,API提供自适应思考和工作控制。

因此,两家公司都朝着整体平台而非独立模型的方向发展。

随着模型继续发展,你应该尝试两者,校准工作参数,并为每项工作利用正确的工具。


原文链接:Opus 4.6 vs. Codex 5.3 - 汇智网

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐