Claude Opus 4.7视觉能力从50%飙升到接近满分,AI真的能替人看世界了
Claude Opus 4.7视觉能力实现重大突破,在XBOW测试中得分从54.5%跃升至98.5%,接近满分。该版本支持2576像素高分辨率图像处理,屏幕定位能力提升至87.6%,生物学推理能力增长2.4倍。编程能力重回公开模型第一,主动自我验证功能显著降低错误率。在GDPval-AA测试中,Opus 4.7以1753分领先GPT-5.4。Anthropic年营收达300亿美元,超越OpenAI
Claude Opus 4.7视觉能力从50%飙升到接近满分,AI真的能替人看世界了
2026年4月16日,太平洋时间深夜。
Anthropic悄悄发布了Claude Opus 4.7,没有大张旗鼓的发布会,没有CEO站台演讲。
但这个版本,可能才是真正改变AI格局的那颗炸弹。
为什么?因为它补上了AI目前最大的短板——视觉理解能力。
在XBOW的基准测试中,Opus 4.7的视觉得分从Opus 4.6的54.5%,直接跃升到98.5%,接近满分。
这不是迭代,这是换代。
一、为什么说这次升级"炸场"?
过去两年,大模型竞争的主战场是"答得像不像"。
谁说话更像人,谁推理更快,谁就能拿到头条。
但2026年的新战场已经变了——能不能把活干完。
能不能看懂一张复杂截图,能不能把一个长任务从头执行到尾,能不能在你不盯着的时候自己检查错误。
这决定了AI是"聊天工具"还是"数字员工"。
Opus 4.7这次升级,恰恰是朝着"数字员工"的方向狠狠踩了一脚油门。
三个最关键的升级
| 升维点 | Opus 4.6 | Opus 4.7 | 提升幅度 |
|---|---|---|---|
| 视觉理解(XBOW测试) | 54.5% | 98.5% | 翻倍 |
| 高分辨率图像长边 | ~800px | 2576px | 3倍 |
| BFS 1M长任务执行 | 41.2% | 58.6% | 17.4个百分点 |
二、视觉能力换代,AI终于能"看懂屏幕"了
这次升级最炸的,不是编程能力,而是眼睛换代。
ScreenSpot-Pro测试:屏幕定位能力
这个测试专门测Agent的屏幕定位能力。
给模型一张VSCode、Photoshop、AutoCAD这类专业软件的高分辨率桌面截图,让它定位到具体的UI元素。
在高分辨率屏幕里,目标UI元素往往只占整张图的0.07%,极考验精细视觉。
结果:
- Opus 4.6(低分辨率不带工具):57.7%
- Opus 4.7(低分辨率不带工具):69.0%,拉开11.3个百分点
- Opus 4.7(高分辨率带工具):87.6%
这意味着什么?
AI终于能看懂你屏幕上的内容了。
过去你截个图让AI分析,它经常"看不懂细节"。现在不一样了,2576像素的长边输入,让它能看清密密麻麻的表格、复杂的流程图、精细的UI界面。
生物学推理:从30.9%冲到74.0%
Structural Biology基准测试里,Opus 4.6只有30.9%。
Opus 4.7直接冲到74.0%。
一次版本迭代,从三成到七成半,2.4倍。
这是所有benchmark里跃升最夸张的一项。
三、编程能力:重回公开模型第一
SWE-bench Pro测试的是模型修复真实GitHub issue的能力。
Opus 4.7拿到64.3%,重回公开可用模型第一。
两个关键变化
第一,主动自我验证。
过去AI写完代码就交卷,不管有没有bug。
现在Opus 4.7会在长任务中主动设计验证方式,检查自己的逻辑错误,再汇报最终结果。
这意味着Agent场景下的低级错误率会显著降低。
第二,更听话了。
Anthropic官方说,Opus 4.7的指令遵循能力大幅提升。
过去很多模型会"松散理解"你的需求,漏掉细节。现在它更倾向于逐条照着执行。
对普通用户来说,这会直接减少提示词玄学——写需求、定格式、列限制条件,会更有用。
四、GPT-5.4扛不住了吗?
直接看跑分对比。
GDPval-AA测试:覆盖44种知识工作职业、9大GDP核心行业,任务来自资深职业人士(平均14年经验)的真实交付物。
| 模型 | Elo分数 |
|---|---|
| Opus 4.7 | 1753 |
| Opus 4.6 | 1619 |
| GPT-5.4 | 1674 |
| Gemini 3.1 Pro | 1314 |
Opus 4.7高出GPT-5.4 79分,高出Gemini 3.1 Pro 439分。
OfficeQA Pro测试:企业级推理基准,语料是近100年的美国财政部公报,8.9万页PDF、2600万个数字。
| 模型 | 得分 |
|---|---|
| Opus 4.7 | 80.6% |
| Opus 4.6 | 57.1% |
| GPT-5.4 | 51.1% |
| Gemini 3.1 Pro | 42.9% |
Opus 4.7是GPT-5.4的1.6倍,是Gemini 3.1 Pro的1.9倍。
五、Anthropic营收超越OpenAI
这才是最值得关注的商业信号。
Anthropic 2026年年化营收达300亿美元,较2025年底的90亿美元增长233%。
而OpenAI的年化营收是250亿美元。
Anthropic已经超越了OpenAI。
企业客户年支出超100万美元的数量,从2月的500家,增至4月的1000家,翻倍。
估值达3800亿美元。
这说明一件事:企业市场正在用钱包投票,Claude正在赢。
六、定价没涨,但账单可能会涨
Opus 4.7的Token单价与4.6完全一致:
- 输入:$5 / 百万token
- 输出:$25 / 百万token
但实际成本可能涨了。
两个原因:
1. 新tokenizer
同样的输入,会被切成1.0到1.35倍的token数。具体倍数取决于内容类型。
2. 高档位思考更多
尤其是在Agent场景的后续轮次中,输出token会增加以换取可靠性。
对API用户的建议:迁移前先用典型工作负载实测一次,算清楚实际账单变化。
七、普通用户最先感受到的三大变化
第一,指令遵循更严格。
过去AI经常"自由发挥",你写10条要求它只执行6条。
现在它更听话,但也要求你的prompt更精确。旧提示词可能需要重新调整。
第二,看图更细。
支持2576像素长边的高分辨率图像,约375万像素,是前代的3倍以上。
适合:密集截图、复杂图表、精细结构图、需要像素级参考的任务。
第三,输出更接近成品。
官方提到,Opus 4.7在界面、幻灯片、文档这些专业任务上更有审美,也更有创造性。
它在基于文件系统的记忆上做得更好,能跨多轮、多会话记住关键备注。
八、安全防护栏同步上线
Anthropic在一周前刚公布Project Glasswing,专门谈前沿模型的网络安全风险。
Opus 4.7成了这套新思路下第一个公开部署的模型。
它的网络安全能力被有意降低,上线时带有自动检测和拦截高风险网络安全请求的护栏。
合规安全研究人员可以通过Cyber Verification Program申请解除限制。
Anthropic没有把这次发布包装成"毫无代价的全面跃升",官方承认在某些细项上存在小幅走弱。
这反而让人觉得更可信。
九、中美AI差距缩小至2.7%
斯坦福大学《2026年人工智能指数报告》显示:
中美两国在顶级大模型的性能差距已缩小至2.7%。
这已经达到行业公认的"无显著差距"标准。
中国AI大模型市场规模预计2026年达680亿元。
技术并跑时代,正式开启。
十、谁该立刻升级?谁要多留心眼?
立刻受益的人群:
开发者、分析师、法务、研究人员,以及所有高频处理文档、表格、演示材料的人。
早期测试反馈里,合作方都提到:复杂工作流更稳了,错误恢复更强了,文档推理、代码审查、数据分析都有明显提升。
需要多留心眼的地方:
更高分辨率图像会烧掉更多Token,用不到细节时最好先压缩图片。
还有那个新tokenizer,同样的输入可能会多出1.0到1.35倍Token。
对Claude.ai聊天用户:更多体现在额度消耗和响应体验上。
对API用户和企业客户:这是实打实的成本变量。
十一、Anthropic想传递的信号
从Opus 4.7这次发布能看出,Anthropic眼下押注的方向已经非常明确:
长任务执行、视觉理解、工具协同、少监督交付。
这几项能力正在被打包成下一阶段的大模型主战场。
除了官网公告外,Claude还公布了Opus 4.7的系统卡,长达232页,里面公布了更多安全评估细节。
大模型从"会聊天"走向"会干活",这一步又往前挪了一大截。
真正能干好活的最强生产力模型,从Opus 4.6,变成了Opus 4.7。
如果你还在用Opus 4.6,建议今天就升级。眼睛换代的感觉,谁用谁知道。
参考资料:
更多推荐


所有评论(0)