Google最新发布的Gemini 3!深度实测:霸榜实力与翻车全解析
文章评测了Google最新发布的Gemini 3大模型,其在基准测试中以断层优势登顶,展现了强大性能。实际测试中,多模态理解和生成能力表现出色,尤其在3D建模、网页生成等方面效果惊艳,但高难度任务仍需精细提示词和多次调试。整体而言,Gemini 3性能上限显著提高,但在复杂任务上存在局限性,用户可在Google AI Studio体验。
一觉醒来,我的社媒就被最新发布的哈基米刷爆了。
即使是 Cloudflare 服务全球宕机这样的重磅新闻也没有压过哈基米的风头。


网络上铺天盖地各种吹。




我也充满期待立刻去实测了一波,但或许是期望太高,Gemini 3 的实际效果并没有达到我的预期。
实测中能感受到它很强,但翻车也不少。
在端上实测之前,先来一起感受一下它实力刷榜的暴力美学。
一、暴力霸榜
官方称这是最智能的模型。

这句话不是嘴上说说,而是有数据做支撑。
Gemini 3 在大多数基准测试中直接登顶。

不仅是登顶,在不少榜单中更是以断层的实力遥遥领先。
挑几个说一下,大家可以感受一下它恐怖的统治力。
在“人类终极测试”( Humanity’s Last Exam )中,不开工具的情况下 Gemini 3 pro 就能取得 37.5% 的分数,直接甩 GPT-5.1 10% 。
在 ARC-AGI-2 基准上把 SOTA 成绩直接推到了 31.1% ,这个成绩超 Claude Sonnet 4.5 两倍。而且,Gemini 2.5 pro 之前的成绩是 4.9% 。这是翻了多少倍大家可以算一下。
在涵盖了各种困难数学竞赛题的 MathArena Apex 基准上,各家模型还没有摸到 2% 的分数线,Gemini 3 pro 猛地干到了 23.4% 。
此时需要配音一句 unbelievable !

建议以后模型屠榜都按这个标准来。
目前还是 LMArena 榜单上唯一一个上 1500 分的模型,也让 Grok 4.1 这波顶登的十分短暂了。

就连奥特曼和老马都第一时间送上祝贺。如果实力接近还能互相较劲几句,但面对这种绝对差距,能做的只有:祝贺,然后回头继续卷。


榜单飞升的背后究竟是不是藏着新一代的智能?看看实测效果就知道。
二、模型实测
鹈鹕骑车
先来一个大家津津乐道的鹈鹕骑自行车。
Generate an animated SVG of a pelican riding a bicycle, set against a whimsical background. The background should include elements like a fluffy cloud sky, a winding path, and perhaps some cheerful flowers.
问题还是挺明显的,自行车没有脚蹬,鹈鹕骑车脚的动作也不合理。
于是我进一步输入提示词让它加上脚蹬。
这一次脚蹬加上了,但是动作和平常人骑自行车还是有差别。但仔细看鹈鹕每一下还真踩到了脚蹬上,或许这就是哈基米眼中鹈鹕骑自行车的方式吧……
我不死心地再试了一次,要求它让鹈鹕像人类骑车那样实现腿部动作,效果如下:
这次的效果还不错,脚也能像人一样正常骑车了。看来 Gemini 3 pro 的能力够,但提示词要给得足够具体。
3D 风扇
再来一个生成风扇任务,来看看佬友用它实现的效果。
虽然细看仍有瑕疵,比如扇叶偶尔出模、转动略假,但整体表现非常惊艳:有质感的 UI 设计,出色的 3D 模型构建能力,风扇能摆头有档位,并且不同档的声音也不同。
特别是光影效果的处理,实时高精光影的表现,比如不同颜色,不同材质面,不同光源位置都会有不同的效果,真就让人叹为观止了。

不同端的适配也没问题。

对比一下昨天的 Grok 4.1 生成的效果,说哈基米 3 碾压一点不夸张。

不过公平起见需要说明一下 Grok 4.1 的效果是一次直出,而上面哈基米的效果是经过多次提示词调试后的。
网页生成
再来测一下它招牌的网页生成能力。
我用了下面的提示词,看它能不能猜到我是在说开头提到的 Cloudflare 事件。
刚刚互联网发生了一件大事,请帮我总结一下它的影响,并和历史上的类似事件进行梳理总结,生成一个极具现代美感的网页
效果相当不错,个人比较喜欢这个风格,特别是首页字体的滑动扭曲效果。根据哈基米的说法这个风格是:
Digital Brutalism (数字粗野主义) 结合 Glitch Art (故障艺术)。高对比度的黑白红配色,模拟终端代码与报错界面的美学。
多模态理解能力
官方还提到了 Gemini 3 拥有世界领先的多模态理解能力。
我把上面网页的录屏发给它,让它帮我看看首页字体的效果是什么。

它不仅能精准理解我指的是哪部分文字,还能看懂字体的效果,并给出代码示例。


我又给了它一张白天的图片,让它生成晚上的样子。

它直接给我生成了一个让图片白天转夜晚的工具。

至于上面这个效果,与其说是晚上,更像是转换成了一个昏暗的白天。

换另外一张图片试了下。

虽然夜晚效果实现的更好,但是图片内容有了明显的改动。
乐高模拟器
来看网友用它做的乐高模拟器,声称 one shot 直出,效果也是非常好。
网友也分享了使用的提示词。

但我用该提示词跑了很多遍,实现的效果别说接近了,差的离谱,甚至会连乐高模块都没有。
评论区也有不少人有同样的反馈。



所以我大胆猜测,这个效果十有八九还是需要多次调试才能出来。
他分享的提示词我也放在下面了,感兴趣的小伙伴可以上手试一下。
“Make a 3D LEGO editor. Come up with the functionalities yourself, something that makes sense. All in one HTML file”
游戏生成
最后来看看它做游戏的能力。
网友用它复刻了 IOS 端的钓鱼小游戏 Ridiculous Fishing 。
画面和音效都不错。
我也用它复刻了经典小游戏 Flappy Brid ,一次直出的效果如下。
基本功能实现没问题,能玩起来。
接着上了点难度,让它模仿纪念碑谷生成一个关卡即可。最后得到的页面纹丝不动如下:

三、最后
整体来说,性能确实提升明显,尤其是上限变高了。
不过在难度高一些的任务上,需要配合具体的提示词和多次调试才能达到理想的效果。
大家可以到 Google AI Studio 亲自体验一下。

指路链接:
https://aistudio.google.com/apps
在 Gemini 网页端也可以使用。

四、如何学习AI大模型?
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

更多推荐


所有评论(0)