laude Opus 4.6 与 GPT-5.3-Codex

在 GDPval-AA（一项评估模型在金融、法律和其他领域中具有经济价值的知识工作任务上的表现的测试）中， Opus 4.6 的表现比业界次优模型（OpenAI 的 GPT-5.2）高出约 144 个 Elo 分数，比其前身（Claude Opus 4.5）高出 190 分。在这代模型上，规划更加谨慎，能够维持更长时间的自主工作流程，并在关键的企业基准测试中超越了包括 GPT-5.2 在内的竞争对

clearlove130

689人浏览 · 2026-02-06 18:35:18

clearlove130 · 2026-02-06 18:35:18 发布

🍋🍋AI学习🍋🍋🔥系列专栏：

👑哲学语录: 用力所能及，改变世界。

💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

Claude Opus 4.6

Claude Opus 4.6 是 Anthropic 对其旗舰人工智能模型的一次重大升级。在这代模型上，规划更加谨慎，能够维持更长时间的自主工作流程，并在关键的企业基准测试中超越了包括 GPT-5.2 在内的竞争对手。

新模型首次拥有 100 万 token 的上下文窗口，使 AI 能够处理和推理比以往版本多得多的信息。Anthropic 还在 Claude Code 中引入了类似于 Kimi K2.5 的「智能体团队」功能 —— 一项研究预览功能，它允许多个 AI 智能体同时处理编码项目的不同方面，并进行自主协调。

Anthropic 强调，Opus 4.6 可将其增强的功能应用于一系列日常工作任务，包括运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿。现在在 Cowork 环境中，Claude 可以自主地执行多任务，Opus 4.6 可以代表人类运用所有这些技能。

Opus 4.6 在多项评估中均表现出色。例如，它在智能体编码评估工具 Terminal-Bench 2.0 中取得了最高分，并在「人类最后的考试」（一项复杂的多学科推理测试）中领先于所有其他前沿模型。在 GDPval-AA（一项评估模型在金融、法律和其他领域中具有经济价值的知识工作任务上的表现的测试）中， Opus 4.6 的表现比业界次优模型（OpenAI 的 GPT-5.2）高出约 144 个 Elo 分数，比其前身（Claude Opus 4.5）高出 190 分。此外，Opus 4.6 在 BrowseComp 测试中也优于其他所有模型，该测试用于衡量模型在线查找难寻信息的能力。

	Opus 4.6	Opus 4.5	Sonnet 4.5	Gemini 3 Pro	GPT-5.2 (all models)
Agentic terminal coding Terminal-Bench 2.0	65.4%	59.8%	51.0%	56.2% (54.2% self-reported)	64.7% (64% self-reported) (Codex CLI)
Agentic coding SWE-bench Verified	80.8%	80.9%	77.2%	76.2%	80.0%
Agentic computer use OSWorld	72.7%	66.3%	61.4%
Agentic tool use r2-bench	Retail 91.9% Telecom 99.3%	Retail 88.9% Telecom 98.2%	Retail 86.2% Telecom 98.0%	Retail 85.3% Telecom 98.0%	Retail 82.0% Telecom 98.7%
Scaled tool use MCP Atlas	59.5%	62.3%	43.8%	54.1%	60.6%
Agentic search BrowseComp	84.0%	67.8%	43.9%	59.2% (Deep Research)	77.9% (Pro)
Multidisciplinary reasoning Humanity's Last Exam	40.0% without tools 53.1% with tools	30.8% without tools 43.4% with tools	17.7% without tools 33.6% with tools	37.5% without tools 45.8% with tools	36.6% without tools (Pro) 50.0% with tools (Pro)
Agentic financial analysis Finance Agent	60.7%	55.9%	54.2%	44.1%	56.6% (5.1)
Office tasks GDPVal-AA Elo	1606	1416	1277	1195	1462
Novel problem- solving ARC AGI 2	68.8%	37.6%	13.6%	45.1% (Deep Thinking)	54.2% (Pro)
Graduate-level reasoning GPQA Diamond	91.3%	87.0%	83.4%	91.9%	93.2% (Pro)
Visual reasoning MMMU Pro	73.9% without tools 77.3% with tools	70.6% without tools 73.9% with tools	63.4% without tools 68.9% with tools	81.0% without tools with tools	79.5% without tools 80.4% with tools
Multilingual Q&A MMMLU	91.1%	90.8%	89.5%	91.8%	89.6%

Claude Opus 4.6 现已在 claude.ai、API 以及所有主流云平台上线，定价保持不变，每百万 token 5 美元 / 25 美元。

目前大模型的一个常见问题是「上下文腐烂」，即当对话 token 数量超过一定阈值时，模型性能会下降。Opus 4.6 的性能显著优于其前代产品：在 MRCR v2 的 8 针 1M 变体测试中（该测试如同大海捞针），Opus 4.6 的得分为 76%，而 Sonnet 4.5 的得分仅为 18.5%。这标志着模型在保持最佳性能的同时，能够利用的上下文信息量发生了质的飞跃。

为了证明 Opus 4.6 的强大智能体能力，Anthropic 的一名研究员使用 16 个智能体从零开始构建了一个基于 Rust 的 C 语言编译器，设定任务后就基本放手不管了。最后 AI 输出的代码长达 10 万行，可以编译 Linux 内核，耗资 2 万美元，超过 2000 次 Claude Code 会话，历时两周。

虽然没有人类参与编写代码，但研究人员不断重新设计测试，在智能体程序互相干扰时构建 CI 管道，并在所有 16 个智能体程序都卡在同一个 bug 时创建变通方法。

看起来，在未来加入 AI 的工作流程中，人的角色已经从编写代码转变为构建让 AI 能够编写代码的环境。

GPT-5.3-Codex

在 OpenAI 这边，新一代模型 GPT-5.3-Codex 的发布紧随其后。奥特曼称其拥有目前最佳的编码性能，进一步释放了 Codex 的潜能。

GPT-5.3-Codex 在多项基准上刷新纪录：在 SWE-Bench Pro 上达到 56.8%，在 Terminal-Bench 2.0 上达到 77.3%，同时相比此前版本运行更快、消耗的 token 更少。

	GPT-5.3-Codex (xhigh)	GPT-5.2-Codex (xhigh)	GPT-5.2 (xhigh)
SWE-Bench Pro (Public)	56.8%	56.4%	55.6%
Terminal-Bench 2.0	77.3%	64.0%	62.2%
OSWorld-Verified	64.7%	38.2%	37.9%
GDPval (wins or ties)	70.9%		70.9% (high)
Cybersecurity Capture The Flag Challenges	77.6%	67.4%	67.7%
SWE-Lancer IC Diamond	81.4%	76.0%	74.6%

OpenAI 表示，该模型融合了 GPT-5.2-Codex 的前沿编码性能和 GPT-5.2 的推理及专业知识能力，速度提升了 25%。这使其能够胜任需要研究、工具使用和复杂执行的长时间任务。

它就像一位真正的同事一样，你可以在 GPT-5.3-Codex 工作时对其进行指导和交互，而不会丢失上下文信息。借助 GPT-5.3-Codex，Codex 从一个能够编写和审查代码的代理，变成了一个几乎可以执行开发人员和专业人士在计算机上的任何操作的代理。

除了更加强大的编码能力外，GPT-5.2-Codex 在 OpenAI 长期关注的美学方面又一次有了长足的进步。

在这次发布中，OpenAI 让 GPT-5.3-Codex 构建了两款游戏：一款是 Codex 应用发布时推出的赛车游戏的第二版，另一款是潜水游戏。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

焰境·万载——新一代文旅网站制作展示

2048 AI社区

企智栾生 ETA（资产化路径：安全与伦理红线，定义新生产力的边界）【浙江联保网络卢伟舜】

《ETA智能体系的伦理安全架构与价值边界》摘要：浙江联保网络企智孪生ETA体系构建了完整的安全伦理框架，通过三大核心机制确保AI赋能不越界。价值观注入机制将企业经营理念嵌入模型底层逻辑，通过反向压力测试持续校准决策标准；透明度协议建立全链路溯源体系，使每个决策都可解释、可验证；安全红线从源头防范价值偏离风险。该体系重新定义了人机协作边界——机器处理标准化工作，人类专注创新创造，既释放了硅基资产的复