超全测评!GPT5.3和Opus4.6,谁是最强 AI?20个爆火案例对轰
超全测评!GPT5.3和Opus4.6,谁是最强 AI?20个爆火案例对轰
半夜 2 点,大洋彼岸的 AI 打起来了。全球最强 AI,今天要易主了吗?
本期视频,我通读了 Claude 和 OpenAI 的官方发布内容,并整理了海内外高热度 20 个实测案例。

包含两家模型的高光表现,统一提示词的正面比较,以及计划和执行交叉组合的效果对照。
帮你更直观地判断,哪家模型更强,更适合你的使用场景。
另外两家大模型的使用方法也整理好了。
视频制作不易,喜欢的话,请点赞收藏关注,支持高质量内容。

就在昨天,OpenAI 和 Anthropic 的 CEO 还在为应用里要不要加广告阴阳怪气,隔空互怼。
结果凌晨,直接就掏出各自最强的模型上场了。
先是 1 点 45 分,Claude Opus 4.6 闪亮登场。
“我们最智能的模型又升级了!编码更强,规划更周密,能把任务跑得更久。上下文更是第一次拉到 100 万 Token。”

紧接着,奥特曼也坐不住了。半小时不到,强势上线 GPT 5.3 Codex,直接硬刚。
“我们迄今为止最强的智能编码模型来了。速度提升 25%,同样任务的 Token 消耗只有 5.2 的一半。任务跑着跑着你还能随时加新指令,不用打断重来,体验更好。”

两家的跑分数据都很亮眼。
Opus 4.6 在多项智能体能力评测中遥遥领先,处理金融、法律等高价值知识工作任务游刃有余。

GPT 5.3 更强调编程能力,在真实软件工程的严格评估中表现最强,甚至这次 5.3 的诞生过程中,AI 参与了调试训练、协助部署等。

但跑分终究是数据,谁能一决高下,得看实测。
我们先看看两家各自跑出来的高光案例。首先,是 Opus 4.6。
这是一个太阳系可视化模型。

这是 1 小时做的识别图片 App。

这是网友在游戏里做的整活演出。

这是模型用 Python 做的红绿灯车流演示。

满分 5 分,你给 Opus 4.6 打几分?
再来看看 GPT 5.3 的一些案例。
克隆一个简单的我的世界网页版。

小狗版的超级玛丽。

土豆过家家游戏。

让模型用 Three.js 克隆一个使命召唤游戏。

满分 5 分,你给 GPT 5.3 打几分?
看起来比之前的编程模型强多了,但谁更厉害呢,得拉到一起比比看才知道。
在同一套提示词的前提下,先来个六边形测试,考察对现实世界物理规律的理解。
上面是 Opus 4.6,下面是 GPT 5.3。整体表现都不错,小球的弹跳、折返、起落节奏,看着挺像那么回事。
但细看会发现,左侧橙色小球有几秒会贴着墙往上爬,像是突然被墙吸住了一样,有点违和。
六边形测试,GPT 胜。
再来一个 3D 版城市,考察空间建模,画面质感和实时渲染表现。左边是 Opus 4.6,右边是 GPT 5.3。

可以看到,Opus 这边城市结构更完整,高楼、住宅、街边店铺层次分明,配色也更丰富。街边有绿植和行人,路上还有不同车型的车在跑,整体更贴近真实城市场景。
GPT 这边也能跑出来,但纹理质感很粗糙,整体很卡顿,体验太差了。
3D 城市测试,Opus 胜。
海绵宝宝的水下世界,搭出来是啥效果呢。同样,左边是 Opus 4.6,右边是 GPT 5.3。

这..咋说呢,都有点像恐怖片。这位测试者的原话是,Opus 跑了一次就出来了,GPT 修复了 3 次 Bug,才勉强能看,而且 Opus 明显速度更快。
这一局,Opus 再下一城。
在整理案例时,我还看到一个挺有意思的交叉测试。

同样做一个 Three.js 自动炮台小游戏,把计划和执行拆开,分别交给 Opus 4.6 和 GPT 5.3,交叉组合跑了 4 轮。看看区别。
结果很明显,他的结论是, GPT 5.3 做计划偏弱,但执行力很强。如果要做项目,他推荐用 Opus 4.6 来规划,再交给 GPT 5.3 去落地。

整体来看,这一次,两家大模型,相较于上一代有很大的提升。
Opus 4.6 更偏规划和统筹,长上下文是优势,做研究、写方案、处理复杂资料、推进多步骤任务更稳,适合长时间持续推进的工作。
GPT 5.3 Codex 更偏工程执行,写代码和落地更快,支持过程中随时调整方向,适合快节奏迭代,工程导向的开发场景。
如果你主要做方案和长链路任务,看重审美,优先选 Opus 4.6。如果要高强度写代码,优先选 GPT 5.3。
有条件的话,可以让 Opus 4.6 先出计划,再让 GPT 5.3 负责落地执行,组合拳效果更佳。

最后有个小彩蛋,这是两家模型用代码复刻的一幅世界名画,你能猜出是什么吗?

另外,Opus 4.6 和 GPT 5.3 的安装方法也已经整理好了。
如果觉得本期内容有帮助,请点赞投币收藏转发!
本频道持续分前沿的 AI 应用玩法和创富案例。关注我,下期见。
更多推荐


所有评论(0)