Claude Opus 4.7视觉能力从50%飙升到接近满分,AI真的能替人看世界了

2026年4月16日,太平洋时间深夜。

Anthropic悄悄发布了Claude Opus 4.7,没有大张旗鼓的发布会,没有CEO站台演讲。

但这个版本,可能才是真正改变AI格局的那颗炸弹。

为什么?因为它补上了AI目前最大的短板——视觉理解能力。

在XBOW的基准测试中,Opus 4.7的视觉得分从Opus 4.6的54.5%,直接跃升到98.5%,接近满分

这不是迭代,这是换代。


一、为什么说这次升级"炸场"?

过去两年,大模型竞争的主战场是"答得像不像"。

谁说话更像人,谁推理更快,谁就能拿到头条。

但2026年的新战场已经变了——能不能把活干完。

能不能看懂一张复杂截图,能不能把一个长任务从头执行到尾,能不能在你不盯着的时候自己检查错误。

这决定了AI是"聊天工具"还是"数字员工"。

Opus 4.7这次升级,恰恰是朝着"数字员工"的方向狠狠踩了一脚油门。

三个最关键的升级

升维点 Opus 4.6 Opus 4.7 提升幅度
视觉理解(XBOW测试) 54.5% 98.5% 翻倍
高分辨率图像长边 ~800px 2576px 3倍
BFS 1M长任务执行 41.2% 58.6% 17.4个百分点

二、视觉能力换代,AI终于能"看懂屏幕"了

这次升级最炸的,不是编程能力,而是眼睛换代

ScreenSpot-Pro测试:屏幕定位能力

这个测试专门测Agent的屏幕定位能力。

给模型一张VSCode、Photoshop、AutoCAD这类专业软件的高分辨率桌面截图,让它定位到具体的UI元素。

在高分辨率屏幕里,目标UI元素往往只占整张图的0.07%,极考验精细视觉。

结果

  • Opus 4.6(低分辨率不带工具):57.7%
  • Opus 4.7(低分辨率不带工具):69.0%,拉开11.3个百分点
  • Opus 4.7(高分辨率带工具):87.6%

这意味着什么?

AI终于能看懂你屏幕上的内容了。

过去你截个图让AI分析,它经常"看不懂细节"。现在不一样了,2576像素的长边输入,让它能看清密密麻麻的表格、复杂的流程图、精细的UI界面。

生物学推理:从30.9%冲到74.0%

Structural Biology基准测试里,Opus 4.6只有30.9%。

Opus 4.7直接冲到74.0%

一次版本迭代,从三成到七成半,2.4倍

这是所有benchmark里跃升最夸张的一项。


三、编程能力:重回公开模型第一

SWE-bench Pro测试的是模型修复真实GitHub issue的能力。

Opus 4.7拿到64.3%,重回公开可用模型第一。

两个关键变化

第一,主动自我验证。

过去AI写完代码就交卷,不管有没有bug。

现在Opus 4.7会在长任务中主动设计验证方式,检查自己的逻辑错误,再汇报最终结果。

这意味着Agent场景下的低级错误率会显著降低。

第二,更听话了。

Anthropic官方说,Opus 4.7的指令遵循能力大幅提升。

过去很多模型会"松散理解"你的需求,漏掉细节。现在它更倾向于逐条照着执行

对普通用户来说,这会直接减少提示词玄学——写需求、定格式、列限制条件,会更有用。


四、GPT-5.4扛不住了吗?

直接看跑分对比。

GDPval-AA测试:覆盖44种知识工作职业、9大GDP核心行业,任务来自资深职业人士(平均14年经验)的真实交付物。

模型 Elo分数
Opus 4.7 1753
Opus 4.6 1619
GPT-5.4 1674
Gemini 3.1 Pro 1314

Opus 4.7高出GPT-5.4 79分,高出Gemini 3.1 Pro 439分

OfficeQA Pro测试:企业级推理基准,语料是近100年的美国财政部公报,8.9万页PDF、2600万个数字。

模型 得分
Opus 4.7 80.6%
Opus 4.6 57.1%
GPT-5.4 51.1%
Gemini 3.1 Pro 42.9%

Opus 4.7是GPT-5.4的1.6倍,是Gemini 3.1 Pro的1.9倍


五、Anthropic营收超越OpenAI

这才是最值得关注的商业信号。

Anthropic 2026年年化营收达300亿美元,较2025年底的90亿美元增长233%。

而OpenAI的年化营收是250亿美元。

Anthropic已经超越了OpenAI。

企业客户年支出超100万美元的数量,从2月的500家,增至4月的1000家,翻倍。

估值达3800亿美元。

这说明一件事:企业市场正在用钱包投票,Claude正在赢。


六、定价没涨,但账单可能会涨

Opus 4.7的Token单价与4.6完全一致:

  • 输入:$5 / 百万token
  • 输出:$25 / 百万token

但实际成本可能涨了。

两个原因:

1. 新tokenizer

同样的输入,会被切成1.0到1.35倍的token数。具体倍数取决于内容类型。

2. 高档位思考更多

尤其是在Agent场景的后续轮次中,输出token会增加以换取可靠性。

对API用户的建议:迁移前先用典型工作负载实测一次,算清楚实际账单变化。


七、普通用户最先感受到的三大变化

第一,指令遵循更严格。

过去AI经常"自由发挥",你写10条要求它只执行6条。

现在它更听话,但也要求你的prompt更精确。旧提示词可能需要重新调整。

第二,看图更细。

支持2576像素长边的高分辨率图像,约375万像素,是前代的3倍以上。

适合:密集截图、复杂图表、精细结构图、需要像素级参考的任务。

第三,输出更接近成品。

官方提到,Opus 4.7在界面、幻灯片、文档这些专业任务上更有审美,也更有创造性。

它在基于文件系统的记忆上做得更好,能跨多轮、多会话记住关键备注。


八、安全防护栏同步上线

Anthropic在一周前刚公布Project Glasswing,专门谈前沿模型的网络安全风险。

Opus 4.7成了这套新思路下第一个公开部署的模型。

它的网络安全能力被有意降低,上线时带有自动检测和拦截高风险网络安全请求的护栏。

合规安全研究人员可以通过Cyber Verification Program申请解除限制。

Anthropic没有把这次发布包装成"毫无代价的全面跃升",官方承认在某些细项上存在小幅走弱。

这反而让人觉得更可信。


九、中美AI差距缩小至2.7%

斯坦福大学《2026年人工智能指数报告》显示:

中美两国在顶级大模型的性能差距已缩小至2.7%。

这已经达到行业公认的"无显著差距"标准。

中国AI大模型市场规模预计2026年达680亿元

技术并跑时代,正式开启。


十、谁该立刻升级?谁要多留心眼?

立刻受益的人群

开发者、分析师、法务、研究人员,以及所有高频处理文档、表格、演示材料的人。

早期测试反馈里,合作方都提到:复杂工作流更稳了,错误恢复更强了,文档推理、代码审查、数据分析都有明显提升。

需要多留心眼的地方

更高分辨率图像会烧掉更多Token,用不到细节时最好先压缩图片。

还有那个新tokenizer,同样的输入可能会多出1.0到1.35倍Token。

对Claude.ai聊天用户:更多体现在额度消耗和响应体验上。

对API用户和企业客户:这是实打实的成本变量。


十一、Anthropic想传递的信号

从Opus 4.7这次发布能看出,Anthropic眼下押注的方向已经非常明确:

长任务执行、视觉理解、工具协同、少监督交付。

这几项能力正在被打包成下一阶段的大模型主战场。

除了官网公告外,Claude还公布了Opus 4.7的系统卡,长达232页,里面公布了更多安全评估细节。


大模型从"会聊天"走向"会干活",这一步又往前挪了一大截。

真正能干好活的最强生产力模型,从Opus 4.6,变成了Opus 4.7。

如果你还在用Opus 4.6,建议今天就升级。眼睛换代的感觉,谁用谁知道。


参考资料

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐