Claude Opus 4.5 重磅发布：编程之王毋庸置疑，轻松超越了 Gemini 3 Pro 和 GPT-5.1

摘要： Anthropic发布Claude Opus 4.5，确立AI领域新标杆。该模型在编程（SWE-bench）、智能体任务及计算机操作上全面超越Gemini 3 Pro和GPT-5.1，甚至在内部测试中首次击败人类工程师。其颠覆性定价策略将API成本降低2/3（25美元/百万Token），显著提升可用性。新增开发者工具如effort参数、工具搜索和程序化调用，最高节省85% Token消耗。

主理人猫头虎微信: Libin9iOak

492人浏览 · 2025-11-26 12:36:26

主理人猫头虎微信: Libin9iOak · 2025-11-26 12:36:26 发布

Claude Opus 4.5 重磅发布：编程之王毋庸置疑，轻松超越了 Gemini 3 Pro 和 GPT-5.1

昨晚，Anthropic 正式发布了 Claude Opus 4.5，这一新版本在编程实力、智能体能力以及计算机操作上实现了全面的突破，轻松超越了 Gemini 3 Pro 和 GPT-5.1，无可争议地确立了新一代 AI Agents 时代的霸主地位。

关键词速读

SOTA 霸主地位确立：Claude Opus 4.5 在编程（SWE-bench）、智能体（Agentic）能力和计算机操作上全面实现了 SOTA，超越了 Gemini 3 Pro 和 GPT-5.1。
超越人类工程师：在 Anthropic 内部极高难度的软件工程测试中，Opus 4.5 的得分首次超越了所有参与过该测试的人类候选人。
颠覆性降价策略：API 定价相较上一代 Opus 4.1 暴降 2/3，每百万 Token 输入/输出仅需 25 美元，大幅降低 Opus 级别能力的使用门槛。
Agentic 能力飞跃：Opus 4.5 展示了超强的复杂问题解决能力，能通过“先升级舱位再改签”的创造性方式解决看似无解的客服问题。
开发者平台革新：新增 effort 参数控制、工具搜索工具 和 程序化工具调用，大幅减少 Token 消耗，最高可节省 85% 的上下文。

Claude Opus 4.5

🤖 新王登基：Agentic 能力与编码性能的全面突破

Claude Opus 4.5

Claude Opus 4.5 标志着 Anthropic 在 AI 领域又一次重大的技术飞跃，继承了 Claude 系列一贯的强大能力，并在编程、智能体应用及计算机操作等方面进行了深度优化。这款模型不仅刷新了编程基准（如 SWE-bench），而且在智能体任务和计算机操作等领域实现了跨越式进步。

Opus 4.5 直接将 Google 的 Gemini 3 Pro 和 OpenAI 的 GPT-5.1 挤下了行业王座，在全球编程竞赛中，确立了其新的霸主地位。

模型性能对比

Opus 4.5 的发布，标志着 AI 系统化能力的再次飞跃。无论是在复杂的软件工程任务中，还是日常办公中的 PPT、电子表格处理，Opus 4.5 都展现了其强大的智能和高效性。根据 Anthropic 的内部评估数据显示，Opus 4.5 联动 Claude Code 使用时，生产效率暴增了 220%。

📈 颠覆性定价与 SOTA 性能的双重冲击

Claude Opus 4.5 的定价策略是此次发布的另一个亮点。与上一代 Opus 4.1 相比，其 API 定价大幅下调了 2/3，每百万 Token 输入/输出的价格降至仅 25 美元。这一举措极大降低了开发者、团队和企业获取顶尖 AI 能力的门槛，势必加速 Opus 级别 Agent 的普及和应用。

与此同时，在 Anthropic 内部进行的著名限时软件工程测试中，Opus 4.5 的得分超越了所有参与过测试的人类候选人。虽然此测试并未考虑协作、职业直觉等其他关键技能，但这一结果仍然引发了关于 AI 如何彻底改变工程职业的深刻思考。

定价策略

🧠 创造性解决问题：超越基准的智能体表现

Claude Opus 4.5 在智能体（Agentic）能力方面的进展，尤其引人注目。其能力在一些测试项目中已超出了现有基准的衡量范围。在一个航空公司客服代理的模拟情境中，面对“基础经济舱机票不可更改”的规定，模型并没有简单地拒绝客户的请求。相反，它展现了极高的创造性，提出了一个合规且富有洞察力的解决方案：先升级舱位，再修改航班。

创造性解决问题

尽管这种方法在基准系统中被判定为“失败”，因为它不在预设的解决方案路径内，但 Anthropic 认为这正是 Opus 4.5 关键跃升的标志。这种在约束条件下寻找最优解的能力，体现了其在处理模糊信息、权衡利弊方面的先进智能。Opus 4.5 不仅仅是简单地执行指令，而是能够基于深刻的洞察力，处理复杂的、非结构化的任务。

🛠️ 开发者平台三大革新：效率与成本的极致优化

随着 Opus 4.5 的智能提升，它在完成相同或更好的任务时所消耗的 Token 数量显著减少。这是因为它能够通过减少推理步骤和冗余探索，从而提高效率。为了进一步优化开发者的使用体验，Anthropic 对开发者平台进行了三大革新：

effort 参数控制：该功能允许开发者在最小化时间和成本的同时，最大化模型的能力。在“中等投入度”下，Opus 4.5 就能达到最佳效果，同时减少了 76% 的 Token 消耗。
工具搜索工具：这项创新允许模型根据需求按需搜索工具，而非事先加载所有工具定义。通过这种方式，Token 使用量减少了高达 85%，极大缓解了上下文污染问题。
程序化工具调用：程序化工具调用使得模型能够编写脚本来灵活地调用工具，将中间结果隔离在上下文之外，从而减少了 37% 的 Token 消耗，提高了任务处理的精确度。