Claude Opus 4.1实测,这是程序员真正的神
Claude发布Opus 4.1模型,性能提升2%但意义重大,在SWE-bench测试中表现优异。实测显示其能完美生成3D台球、我的世界、俄罗斯方块、Flappy Bird等多种游戏,代码逻辑和视觉效果俱佳。该模型在大型代码项目中定位修改点的能力也有提升,且价格不变。AI编程能力的突破正在改变软件开发行业,使小型团队借助AI就能完成过去多人团队的工作。文章强调,开发者必须积极拥抱AI带来的变革。
昨天,Claude 发布了一款新模型,Opus 4.1。
在 SWE-bench 上,跑分比上一代高了 2%。
别小看这 2%。
这相当于从 Sonnet 3.7 升级到 Sonnet 4 的水平。
不要以为这是个数字游戏。
AI 这个赛道上,每个百分点的提升,都可能意味着从能用到好用。

解释下这些跑分测试集。
从上到下,分别是代理编码,代理终端编码,研究生级推理,代理工具使用,多语言问答,视觉推理和高中数学竞赛。
仔细一看,也不是一骑绝尘。
跟 OpenAI 的 o3 和 Google 的 Gemini 2.5 Pro 相比,也是打得有来有回。
但是,重点来了。
官方还说,未来数周内会有更大的更新。
我是等不及了,必须实测一把。
虽然平日搬砖时候都在用 4 代,但当时发的时候,偷懒没有跑咱们一贯的测试。
这次 4.1 必须得测了。
不测不知道,一测吓一跳。
话不多说,咱们直接开始。
实测
大家可以打开之前这篇文章,很多例子可以对比着看,感受更深刻。
(猛戳回顾👉)连夜实测Claude 3.7 Sonnet,AI编程的天花板又被干碎了
老规矩,先让 Opus 4.1 表演个自我介绍。

果然不错,毕竟 Claude 是网页颜值美学的鼻祖。
这设计,简直就是互联网审美的教科书。
生成一个 3D 台球在线双人游戏
哇,我的天。
这可能是目前模型直出的最佳效果了。
球的碰撞效果非常真实,物理引擎调教的相当到位。
唯一的遗憾,是没有生成球杆。
但,这已经足够让人震撼了。
在网页上中制作一款 3D 我的世界游戏
[video(video-IrNzHyDw-1754575529599)(type-csdn)(url-https://live.csdn.net/v/embed/488649)(image-https://i-blog.csdnimg.cn/img_convert/e31c4c8b6dbe33c5fe497217336a3179.jpeg)(title)]
居然还能破坏和放置方块,体验越来越好了。
做一个时尚的俄罗斯方块网页游戏,方块要具有苹果毛玻璃的效果
赏心悦目,再次被 Claude 的颜值美学征服。
这毛玻璃的效果,简直就是苹果设计师附体。
游戏逻辑完美,视觉效果也非常精致。
请用单个 HTML 页面编写一个 Flappy Bird 游戏,保持重力较弱,让游戏容易一些。
意料之中,像素鸟也是轻松拿下。
做一个精致的中国象棋在线对战网页游戏
中国象棋双人对战也能完美生成,我仔细检查了一遍。
没找到一点逻辑错误。
走棋规则,胜负判定,界面交互,全都是标准的。
在网页中制作一款超级马里奥游戏
移动跳跃,收集金币,生命数值,敌方小兵。
虽然是简化版,但该有的元素一个也没少。
除此之外,还有一点提升非常实在。
在大型代码仓库中,能够准确定位具体修改点。
大家搬砖的时候不妨试试看。
尾声
Opus 4.1 的价格,跟上代模型保持一致,这波升级算是加量不加价。
AI 编程的天花板,毫无疑问又被干碎了。
甚至 AI 已经彻底改变了整个软件开发行业。
技术选型要考虑 AI 友好,团队协作正朝着小型团队演进。
因为有了 AI,好像不再需要初阶程序员,AI 就是最好的同事。
一个老司机如果能充分发挥 AI 的能力。
完全可以做到过去 5 人团队能产生的效果。
这不是夸张,这是现实。
但,风浪越大鱼越贵。
要么拥抱变化,要么被变化淘汰。
选择权一直在你手里。
更多推荐


所有评论(0)