Opus 4.6 的 Benchmark 该怎么看：方法学偏差与你自己的评估

摘要：大模型厂商发布的benchmark成绩往往存在设计、运行条件和报告方式的差异，不能直接作为决策依据。以Anthropic发布的Opus 4.6为例，其Terminal-Bench分数受不同工具链影响，Humanity's Last Exam成绩依赖额外工具支持，GDPval-AA的144 Elo优势仅代表70%场景领先。更值得关注的是，该模型在核心指标SWE-bench和MCP Atlas上

147AI

1002人浏览 · 2026-02-06 17:06:43

147AI · 2026-02-06 17:06:43 发布

每次大模型发布，厂商都会贴一张 benchmark 表：我们在 X 上得了多少分、在 Y 上赢了谁。Opus 4.6 的发布也不例外——Terminal-Bench 第一、Humanity’s Last Exam 第一、GDPval-AA 比 GPT-5.2 高 144 Elo、BrowseComp 第一。

数字很漂亮。但你真的该按这些数字做决策吗？

这篇不是要说 Anthropic 造假——他们大部分 benchmark 有第三方复现或独立机构跑的。要说的是：benchmark 的设计、运行条件、报告方式，都有值得注意的地方。

几个值得细看的注脚

Anthropic 的发布文章底部有一串注脚，大部分人不会看。但这些注脚里藏着关键信息。

Terminal-Bench 2.0：Anthropic 报告的分数包括"在我们基础设施上复现的分数"和"其他实验室公布的分数"。不同实验室用的 harness 配置不一样（Opus 用 Terminus-2 harness，OpenAI 的 Codex CLI 用了自己的 harness），资源分配也不同（1× 保证 / 3× 上限）。

同一个 benchmark，用不同的工具链跑，分数可能差 5-10 个百分点。当 Opus 4.6 和 GPT-5.2 的差距只有几个百分点时，这种方法论差异足以改变排名。

Humanity’s Last Exam：Anthropic 给 Claude 配了 web search、web fetch、code execution、programmatic tool calling、context compaction（50K 触发，最高 3M 总 token）、max reasoning effort、adaptive thinking。

也就是说，跑 HLE 时的 Claude 不是"裸模型"，而是一个全副武装的 Agent 系统。如果对手实验室用更少的工具跑，分数自然更低。这不一定是模型能力的差异，可能是工具链的差异。

SWE-bench Verified：Anthropic 的分数是 25 次试验的平均值，而且提到"用了一个 prompt modification 后分数可以到 81.42%"。报了 25 次平均值还是改过 prompt 的值？一般来说 25 次平均更公允，但"我还可以更高"这种暗示也在影响你的判断。

BrowseComp：加了多 Agent harness 后分数从基础分飙升到 86.8%。这说明 BrowseComp 的分数很大程度上取决于系统设计，不只是模型本身。

两个有意思的回退

The New Stack 的报道里提到了一个细节：Opus 4.6 在 SWE-bench Verified 和 MCP Atlas 上出现了小幅回退。

SWE-bench 是最广泛使用的代码生成 benchmark 之一，MCP Atlas 测的是工具调用能力。在这两个"最核心"的指标上反而退步了，Anthropic 没有给出解释。

可能的原因很多——benchmark 的具体 prompt 跟模型的训练分布不太匹配、adaptive thinking 在某些固定格式任务上不如手动 budget_tokens、或者模型的能力分配发生了偏移（在"更难的问题"上变强了，在"标准流程"上略弱了）。

但这恰恰说明了 benchmark 的局限性：一个模型不可能在所有评测上同时变好。如果一个发布只展示进步的数字、弱化退步的数字，你看到的就不是全貌。

GDPval-AA 的 Elo 差距意味着什么

Anthropic 在发布里重点强调 Opus 4.6 在 GDPval-AA 上比 GPT-5.2 高 144 Elo。这个 benchmark 由 Artificial Analysis 独立运营，测的是"经济上有价值的知识工作"——金融分析、法律推理等。

144 Elo 听起来很大。但 Elo 是一个相对评分系统，含义取决于基准分布。Anthropic 在注脚里翻译了一下：144 Elo 大约意味着 Opus 4.6 在 70% 的对比中胜出（50% 表示持平）。

也就是说，如果你随机抽 10 个 GDPval-AA 的任务，大概有 7 个 Opus 4.6 做得更好，3 个 GPT-5.2 做得更好（或持平）。不是碾压，是"大多数时候更好"。

对你的决策来说，这意味着：如果你的任务正好落在那 30% 里，Opus 4.6 反而不如 GPT-5.2。benchmark 只告诉你平均表现，不告诉你在你的具体任务上谁更好。

你应该怎么做自己的评估

与其纠结谁的 benchmark 更可信，不如花点时间建自己的评估。

1. 收集 20-50 个真实任务样本

从你的实际业务里选。如果你做代码审查，收集 20 个有代表性的 PR。如果你做客服，收集 50 个历史工单。

关键是"真实"——不是编造的测试用例，而是你的用户真正会遇到的输入。

2. 定义评分标准

不要用"好/坏"这种二元判断。定义几个维度，给每个维度打 1-5 分：

正确性：答案是否准确
完整性：是否遗漏关键信息
格式：输出结构是否符合要求
效率：token 消耗是否合理

3. 跑对比测试

同样的任务，同时喂给两三个模型。记录每个模型的得分和 token 消耗。

models = ["claude-opus-4-6", "claude-sonnet-4-5", "gpt-5.2"]
results = {}

for model in models:
    scores = []
    costs = []
    for task in test_tasks:
        response = call_model(model, task)
        score = evaluate(response, task.expected)
        cost = calculate_cost(response.usage, model)
        scores.append(score)
        costs.append(cost)
    results[model] = {
        "avg_score": sum(scores) / len(scores),
        "avg_cost": sum(costs) / len(costs),
        "score_per_dollar": sum(scores) / sum(costs)
    }

最后一个指标——每美元得分——通常是最有决策价值的。

4. 关注失败模式

平均分不够，还要看"什么时候会输"。

如果 Opus 4.6 在简单任务上跟 Sonnet 打平、但 Sonnet 只要三分之一的钱，你的最优策略可能是：简单任务用 Sonnet，复杂任务用 Opus。

这种分层策略在生产环境里很常见，但在 benchmark 表上看不出来。

一个务实的态度

Benchmark 的价值在于快速筛选：如果一个模型在你关心的任务类型上排名靠后，可以先不考虑。但排名靠前不等于"在你的场景里一定好"。

Opus 4.6 在 Terminal-Bench、ARC AGI 2 上的提升是实打实的（跟自己的 4.5 比）。但这些提升能不能转化成你的业务价值，只有你自己的测试说了算。

花半天时间建一套属于自己的小型 eval，远比在网上争论"谁的 benchmark 更可信"有用。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

告别查重“开盲盒”！百考通AI：一个更聪明、更安心的科研伙伴

百考通AI的核心突破，在于其跳出了单纯的“文本比对”框架，构建了“语义理解+动态数据+辅助合规”的三位一体架构。这不仅是为了解决老问题，更是为了将查重从“事后检测”转变为“过程合规其一，动态更新的学术知识网络。百考通AI构建了覆盖广泛的动态文献数据库，涵盖中英文核心期刊、学位论文、会议论文、预印本等多类型资源，并实现接近实时的数据同步。这意味着，当你引用一篇上周刚上线的预印本文章时，系统能够准确识

2048 AI社区

告别熬夜与焦虑：如何用百考通AI，将毕业论文从“难题”变成“轻松事”？

解放时间，专注思考：将学生从繁琐的格式调整、文献查找等机械性工作中解放出来，让他们有更多时间进行深入思考和研究，真正实现“把时间花在刀刃上”。降低门槛，促进公平：不论学生来自何种背景的学校，都能获得相对专业的写作辅助，一定程度上平衡了学术资源的不均衡，让更多学生能够产出高质量的论文。规范引导，培养学术诚信：通过提供规范的写作框架和格式要求，帮助学生从一开始就建立正确的学术规范意识。系统也会提醒可能