Claude Opus 4.7视觉能力从50%飙升到接近满分，AI真的能替人看世界了

Claude Opus 4.7视觉能力实现重大突破，在XBOW测试中得分从54.5%跃升至98.5%，接近满分。该版本支持2576像素高分辨率图像处理，屏幕定位能力提升至87.6%，生物学推理能力增长2.4倍。编程能力重回公开模型第一，主动自我验证功能显著降低错误率。在GDPval-AA测试中，Opus 4.7以1753分领先GPT-5.4。Anthropic年营收达300亿美元，超越OpenAI

KC270

417人浏览 · 2026-04-21 22:24:20

KC270 · 2026-04-21 22:24:20 发布

Claude Opus 4.7视觉能力从50%飙升到接近满分，AI真的能替人看世界了

2026年4月16日，太平洋时间深夜。

Anthropic悄悄发布了Claude Opus 4.7，没有大张旗鼓的发布会，没有CEO站台演讲。

但这个版本，可能才是真正改变AI格局的那颗炸弹。

为什么？因为它补上了AI目前最大的短板——视觉理解能力。

在XBOW的基准测试中，Opus 4.7的视觉得分从Opus 4.6的54.5%，直接跃升到98.5%，接近满分。

这不是迭代，这是换代。

一、为什么说这次升级"炸场"？

过去两年，大模型竞争的主战场是"答得像不像"。

谁说话更像人，谁推理更快，谁就能拿到头条。

但2026年的新战场已经变了——能不能把活干完。

能不能看懂一张复杂截图，能不能把一个长任务从头执行到尾，能不能在你不盯着的时候自己检查错误。

这决定了AI是"聊天工具"还是"数字员工"。

Opus 4.7这次升级，恰恰是朝着"数字员工"的方向狠狠踩了一脚油门。

三个最关键的升级

升维点	Opus 4.6	Opus 4.7	提升幅度
视觉理解（XBOW测试）	54.5%	98.5%	翻倍
高分辨率图像长边	~800px	2576px	3倍
BFS 1M长任务执行	41.2%	58.6%	17.4个百分点

二、视觉能力换代，AI终于能"看懂屏幕"了

这次升级最炸的，不是编程能力，而是眼睛换代。

ScreenSpot-Pro测试：屏幕定位能力

这个测试专门测Agent的屏幕定位能力。

给模型一张VSCode、Photoshop、AutoCAD这类专业软件的高分辨率桌面截图，让它定位到具体的UI元素。

在高分辨率屏幕里，目标UI元素往往只占整张图的0.07%，极考验精细视觉。

结果：

Opus 4.6（低分辨率不带工具）：57.7%
Opus 4.7（低分辨率不带工具）：69.0%，拉开11.3个百分点
Opus 4.7（高分辨率带工具）：87.6%

这意味着什么？

AI终于能看懂你屏幕上的内容了。

过去你截个图让AI分析，它经常"看不懂细节"。现在不一样了，2576像素的长边输入，让它能看清密密麻麻的表格、复杂的流程图、精细的UI界面。

生物学推理：从30.9%冲到74.0%

Structural Biology基准测试里，Opus 4.6只有30.9%。

Opus 4.7直接冲到74.0%。

一次版本迭代，从三成到七成半，2.4倍。

这是所有benchmark里跃升最夸张的一项。

三、编程能力：重回公开模型第一

SWE-bench Pro测试的是模型修复真实GitHub issue的能力。

Opus 4.7拿到64.3%，重回公开可用模型第一。

两个关键变化

第一，主动自我验证。

过去AI写完代码就交卷，不管有没有bug。

现在Opus 4.7会在长任务中主动设计验证方式，检查自己的逻辑错误，再汇报最终结果。

这意味着Agent场景下的低级错误率会显著降低。

第二，更听话了。

Anthropic官方说，Opus 4.7的指令遵循能力大幅提升。

过去很多模型会"松散理解"你的需求，漏掉细节。现在它更倾向于逐条照着执行。

对普通用户来说，这会直接减少提示词玄学——写需求、定格式、列限制条件，会更有用。

四、GPT-5.4扛不住了吗？

直接看跑分对比。

GDPval-AA测试：覆盖44种知识工作职业、9大GDP核心行业，任务来自资深职业人士（平均14年经验）的真实交付物。

模型	Elo分数
Opus 4.7	1753
Opus 4.6	1619
GPT-5.4	1674
Gemini 3.1 Pro	1314

Opus 4.7高出GPT-5.4 79分，高出Gemini 3.1 Pro 439分。

OfficeQA Pro测试：企业级推理基准，语料是近100年的美国财政部公报，8.9万页PDF、2600万个数字。

模型	得分
Opus 4.7	80.6%
Opus 4.6	57.1%
GPT-5.4	51.1%
Gemini 3.1 Pro	42.9%

Opus 4.7是GPT-5.4的1.6倍，是Gemini 3.1 Pro的1.9倍。

五、Anthropic营收超越OpenAI

这才是最值得关注的商业信号。

Anthropic 2026年年化营收达300亿美元，较2025年底的90亿美元增长233%。

而OpenAI的年化营收是250亿美元。

Anthropic已经超越了OpenAI。

企业客户年支出超100万美元的数量，从2月的500家，增至4月的1000家，翻倍。

估值达3800亿美元。

这说明一件事：企业市场正在用钱包投票，Claude正在赢。

六、定价没涨，但账单可能会涨

Opus 4.7的Token单价与4.6完全一致：

输入：$5 / 百万token
输出：$25 / 百万token

但实际成本可能涨了。

两个原因：

1. 新tokenizer

同样的输入，会被切成1.0到1.35倍的token数。具体倍数取决于内容类型。

2. 高档位思考更多

尤其是在Agent场景的后续轮次中，输出token会增加以换取可靠性。

对API用户的建议：迁移前先用典型工作负载实测一次，算清楚实际账单变化。

七、普通用户最先感受到的三大变化

第一，指令遵循更严格。

过去AI经常"自由发挥"，你写10条要求它只执行6条。

现在它更听话，但也要求你的prompt更精确。旧提示词可能需要重新调整。

第二，看图更细。

支持2576像素长边的高分辨率图像，约375万像素，是前代的3倍以上。

适合：密集截图、复杂图表、精细结构图、需要像素级参考的任务。

第三，输出更接近成品。

官方提到，Opus 4.7在界面、幻灯片、文档这些专业任务上更有审美，也更有创造性。

它在基于文件系统的记忆上做得更好，能跨多轮、多会话记住关键备注。

八、安全防护栏同步上线

Anthropic在一周前刚公布Project Glasswing，专门谈前沿模型的网络安全风险。

Opus 4.7成了这套新思路下第一个公开部署的模型。

它的网络安全能力被有意降低，上线时带有自动检测和拦截高风险网络安全请求的护栏。

合规安全研究人员可以通过Cyber Verification Program申请解除限制。

Anthropic没有把这次发布包装成"毫无代价的全面跃升"，官方承认在某些细项上存在小幅走弱。

这反而让人觉得更可信。

九、中美AI差距缩小至2.7%

斯坦福大学《2026年人工智能指数报告》显示：

中美两国在顶级大模型的性能差距已缩小至2.7%。

这已经达到行业公认的"无显著差距"标准。

中国AI大模型市场规模预计2026年达680亿元。

技术并跑时代，正式开启。

十、谁该立刻升级？谁要多留心眼？

立刻受益的人群：

开发者、分析师、法务、研究人员，以及所有高频处理文档、表格、演示材料的人。

早期测试反馈里，合作方都提到：复杂工作流更稳了，错误恢复更强了，文档推理、代码审查、数据分析都有明显提升。

需要多留心眼的地方：

更高分辨率图像会烧掉更多Token，用不到细节时最好先压缩图片。

还有那个新tokenizer，同样的输入可能会多出1.0到1.35倍Token。

对Claude.ai聊天用户：更多体现在额度消耗和响应体验上。

对API用户和企业客户：这是实打实的成本变量。

十一、Anthropic想传递的信号

从Opus 4.7这次发布能看出，Anthropic眼下押注的方向已经非常明确：

长任务执行、视觉理解、工具协同、少监督交付。

这几项能力正在被打包成下一阶段的大模型主战场。

除了官网公告外，Claude还公布了Opus 4.7的系统卡，长达232页，里面公布了更多安全评估细节。

大模型从"会聊天"走向"会干活"，这一步又往前挪了一大截。

真正能干好活的最强生产力模型，从Opus 4.6，变成了Opus 4.7。

如果你还在用Opus 4.6，建议今天就升级。眼睛换代的感觉，谁用谁知道。

参考资料：

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

安全隔离与信息交换系统：数字时代的“安全摆渡人“

2048 AI社区

0.1B 参数也能听说读写？本周语音 AI 十大前沿论文

2048 AI社区

歌手2026让AI上台唱歌了？这事比你想的刺激多了

其实我觉得，这次《歌手》引入AI选手，更像是一次技术展示，而不是"AI替代人类"的宣判。节目组心里也清楚，收视率从哪来？从冲突来，从话题来。AI和真人同台竞技，这本身就是最大的话题噱头。观众想看的，不是AI唱得多好听，而是人和AI到底有什么不同。这是人类歌手证明自己价值的最好机会。当AI可以完美地唱出每一个音符的时候，那些唱得"不完美"但有情感的人，反而成了稀缺品。你说是吧？话题来源：微博热搜 2