🍋🍋AI学习🍋🍋🔥系列专栏:

👑哲学语录: 用力所能及,改变世界。

💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


Claude Opus 4.6

Claude Opus 4.6 是 Anthropic 对其旗舰人工智能模型的一次重大升级。在这代模型上,规划更加谨慎,能够维持更长时间的自主工作流程,并在关键的企业基准测试中超越了包括 GPT-5.2 在内的竞争对手。

新模型首次拥有 100 万 token 的上下文窗口,使 AI 能够处理和推理比以往版本多得多的信息。Anthropic 还在 Claude Code 中引入了类似于 Kimi K2.5 的「智能体团队」功能 —— 一项研究预览功能,它允许多个 AI 智能体同时处理编码项目的不同方面,并进行自主协调。

Anthropic 强调,Opus 4.6 可将其增强的功能应用于一系列日常工作任务,包括运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿。现在在 Cowork 环境中,Claude 可以自主地执行多任务,Opus 4.6 可以代表人类运用所有这些技能。

Opus 4.6 在多项评估中均表现出色。例如,它在智能体编码评估工具 Terminal-Bench 2.0 中取得了最高分,并在「人类最后的考试」(一项复杂的多学科推理测试)中领先于所有其他前沿模型。在 GDPval-AA(一项评估模型在金融、法律和其他领域中具有经济价值的知识工作任务上的表现的测试)中, Opus 4.6 的表现比业界次优模型(OpenAI 的 GPT-5.2)高出约 144 个 Elo 分数,比其前身(Claude Opus 4.5)高出 190 分。此外,Opus 4.6 在 BrowseComp 测试中也优于其他所有模型,该测试用于衡量模型在线查找难寻信息的能力。

Opus 4.6 Opus 4.5 Sonnet 4.5 Gemini 3 Pro GPT-5.2 (all models)
Agentic terminal coding Terminal-Bench 2.0 65.4% 59.8% 51.0% 56.2% (54.2% self-reported) 64.7% (64% self-reported) (Codex CLI)
Agentic coding SWE-bench Verified 80.8% 80.9% 77.2% 76.2% 80.0%
Agentic computer use OSWorld 72.7% 66.3% 61.4%
Agentic tool use r2-bench Retail 91.9% Telecom 99.3% Retail 88.9% Telecom 98.2% Retail 86.2% Telecom 98.0% Retail 85.3% Telecom 98.0% Retail 82.0% Telecom 98.7%
Scaled tool use MCP Atlas 59.5% 62.3% 43.8% 54.1% 60.6%
Agentic search BrowseComp 84.0% 67.8% 43.9% 59.2% (Deep Research) 77.9% (Pro)
Multidisciplinary reasoning Humanity's Last Exam 40.0% without tools 53.1% with tools 30.8% without tools 43.4% with tools 17.7% without tools 33.6% with tools 37.5% without tools 45.8% with tools 36.6% without tools (Pro) 50.0% with tools (Pro)
Agentic financial analysis Finance Agent 60.7% 55.9% 54.2% 44.1% 56.6% (5.1)
Office tasks GDPVal-AA Elo 1606 1416 1277 1195 1462
Novel problem- solving ARC AGI 2 68.8% 37.6% 13.6% 45.1% (Deep Thinking) 54.2% (Pro)
Graduate-level reasoning GPQA Diamond 91.3% 87.0% 83.4% 91.9% 93.2% (Pro)
Visual reasoning MMMU Pro 73.9% without tools 77.3% with tools 70.6% without tools 73.9% with tools 63.4% without tools 68.9% with tools 81.0% without tools with tools 79.5% without tools 80.4% with tools
Multilingual Q&A MMMLU 91.1% 90.8% 89.5% 91.8% 89.6%

Claude Opus 4.6 现已在 claude.ai、API 以及所有主流云平台上线,定价保持不变,每百万 token 5 美元 / 25 美元。

目前大模型的一个常见问题是「上下文腐烂」,即当对话 token 数量超过一定阈值时,模型性能会下降。Opus 4.6 的性能显著优于其前代产品:在 MRCR v2 的 8 针 1M 变体测试中(该测试如同大海捞针),Opus 4.6 的得分为 76%,而 Sonnet 4.5 的得分仅为 18.5%。这标志着模型在保持最佳性能的同时,能够利用的上下文信息量发生了质的飞跃。

为了证明 Opus 4.6 的强大智能体能力,Anthropic 的一名研究员使用 16 个智能体从零开始构建了一个基于 Rust 的 C 语言编译器,设定任务后就基本放手不管了。最后 AI 输出的代码长达 10 万行,可以编译 Linux 内核,耗资 2 万美元,超过 2000 次 Claude Code 会话,历时两周。

虽然没有人类参与编写代码,但研究人员不断重新设计测试,在智能体程序互相干扰时构建 CI 管道,并在所有 16 个智能体程序都卡在同一个 bug 时创建变通方法。

看起来,在未来加入 AI 的工作流程中,人的角色已经从编写代码转变为构建让 AI 能够编写代码的环境。

GPT-5.3-Codex

在 OpenAI 这边,新一代模型 GPT-5.3-Codex 的发布紧随其后。奥特曼称其拥有目前最佳的编码性能,进一步释放了 Codex 的潜能。

GPT-5.3-Codex 在多项基准上刷新纪录:在 SWE-Bench Pro 上达到 56.8%,在 Terminal-Bench 2.0 上达到 77.3%,同时相比此前版本运行更快、消耗的 token 更少。

GPT-5.3-Codex (xhigh) GPT-5.2-Codex (xhigh) GPT-5.2 (xhigh)
SWE-Bench Pro (Public) 56.8% 56.4% 55.6%
Terminal-Bench 2.0 77.3% 64.0% 62.2%
OSWorld-Verified 64.7% 38.2% 37.9%
GDPval (wins or ties) 70.9% 70.9% (high)
Cybersecurity Capture The Flag Challenges 77.6% 67.4% 67.7%
SWE-Lancer IC Diamond 81.4% 76.0% 74.6%

OpenAI 表示,该模型融合了 GPT-5.2-Codex 的前沿编码性能和 GPT-5.2 的推理及专业知识能力,速度提升了 25%。这使其能够胜任需要研究、工具使用和复杂执行的长时间任务。

它就像一位真正的同事一样,你可以在 GPT-5.3-Codex 工作时对其进行指导和交互,而不会丢失上下文信息。借助 GPT-5.3-Codex,Codex 从一个能够编写和审查代码的代理,变成了一个几乎可以执行开发人员和专业人士在计算机上的任何操作的代理。

除了更加强大的编码能力外,GPT-5.2-Codex 在 OpenAI 长期关注的美学方面又一次有了长足的进步。

在这次发布中,OpenAI 让 GPT-5.3-Codex 构建了两款游戏:一款是 Codex 应用发布时推出的赛车游戏的第二版,另一款是潜水游戏。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐