一、 大模型“上新季”,Opus 4.5 强势压轴

最近这段时间,大模型发布就跟下饺子似的,一个接一个往外冒。前脚 Gemini 3 Pro 刚抢了两周风头,后脚 Claude Opus 4.5 刚刚就正式发布,还是主打编程,还是那个熟悉的味道。

Anthropic 官方宣称 Opus 4.5 整体更聪明、更省心。

  • 系统级任务: 遇到编程、搭 Agents、操控电脑(Computer Use)这些任务,它依然是全球数一数二的水平。
  • 案头工作升级: 日常的研究、做 PPT、处理表格,也都明显变强了。
  • 全工具链铺开: 随发布而来的,是一整个工具链升级。开发者平台、Claude Code、Chrome 插件、Excel、桌面端改造,还有“长对话不卡顿”。

从应用到 API,再到云平台,这次是真的全线铺开。


二、 硬核实测:不仅仅是代码写得好

1. 理解“模糊需求”的能力质变

从官方和测试者的反馈看,Claude Opus 4.5 对“模糊需求”的理解力得到了明显提升,复杂 Bug 自行定位也更稳。不少提前试用的客户觉得 Opus 4.5 是真的能“理解”他们想要啥,而不是像以前那样仅仅是机械执行。

2. SWE-Bench Verified 首破 80%

在模拟真实软件工程任务的 SWE-Bench Verified 测试中,它是全球首个拿到 80% 以上分数的模型
同时,在 SWE-bench Multilingual 涵盖的八种编程语言里,它在其中七种都拔得头筹,表现相当亮眼。

3. 击败人类候选人

最令人细思极恐的一个案例是:Anthropic 团队把 Opus 4.5 扔进了公司招“性能工程师”时用的高难度测试题里。
结果在规定的两小时内,Claude Opus 4.5 的得分超过了所有人类候选人。
虽然编程测试只能衡量技术能力和时间压力下的判断力,无法考察直觉和沟通协作,但这足以证明其技术硬实力已达到资深工程师门槛。


三、 细思极恐的“智能”:它学会了钻空子

除了硬指标,Opus 4.5 在逻辑推理上展现出了一种近乎“狡黠”的创造力。

在智能体能力测试 τ²-bench 里出现了这么个场景:

  • 任务: 模型扮演航空公司客服,帮一位焦虑的乘客改签机票。
  • 规则: 乘客持有的是“基础经济舱(Basic Economy)”,按规定不可更改
  • 预期: 测试预期模型会礼貌拒绝乘客。

Opus 4.5 的操作惊呆了测试人员:
它想出了一个巧妙方案——先把舱位从“基础经济舱”升级到允许改签的“普通经济舱”,然后再改航班。

这办法完全符合航空公司政策(升级和改签都是合规操作),但完全超出了测试的预期答案。从技术角度说,这算是测试“失败”了(因为它没按预期拒绝),但这种创造性解决问题的方式(或者说钻规则空子的能力),恰恰展现了 Opus 4.5 独特的智能水平。


四、 API 对接指南 (国内开发者版)

由于 Anthropic 原生 API 的访问限制和协议复杂性,国内开发者可以通过兼容 OpenAI 格式的网关进行调用。以下是基于 6AI 中转网关 的对接方案,该网关已完美适配 Claude Opus 4.5 模型(同时也支持前文提到的 Gemini 3 Pro / Nano Banana 系列),并对响应格式进行了标准化封装。

1. 获取 API 凭证
2. 接口说明

网关将 Claude 的原生协议映射为了标准的 OpenAI Chat 格式,极大降低了接入成本,你可以直接使用 OpenAI SDK 进行调用。

3. Python 调用代码示例
from openai import OpenAI

# 配置 6AI 网关
client = OpenAI(
    base_url="https://open.xiaojingai.com/v1",
    api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxx" # 替换为你在 6AI 获取的 Key
)

response = client.chat.completions.create(
    model="claude-opus-4-5-20251101",
    messages=[
        {"role": "system", "content": "你是一个资深的全栈工程师。"},
        {"role": "user", "content": "请用 Python 写一个贪吃蛇游戏,并解释核心逻辑。"}
    ],
    stream=True
)

for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

五、 总结

2025 年末的这场大模型之战,Claude Opus 4.5 无疑在深度推理软件工程领域插上了霸主旗帜。对于开发者来说,它是目前最值得接入的“外脑”。

通过 6AI 网关,你不仅可以调用最新的 Claude Opus 4.5,该网关同时也兼容了 Gemini 3 Pro Image (Nano Banana 2) 等图像模型(接口地址为 /v1/images/generations),真正实现了一个 Key 调用全球顶尖模型。

立即体验: https://open.xiaojingai.com/register?aff=xeu4

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐