Google最新发布的Gemini 3！深度实测：霸榜实力与翻车全解析

文章评测了Google最新发布的Gemini 3大模型，其在基准测试中以断层优势登顶，展现了强大性能。实际测试中，多模态理解和生成能力表现出色，尤其在3D建模、网页生成等方面效果惊艳，但高难度任务仍需精细提示词和多次调试。整体而言，Gemini 3性能上限显著提高，但在复杂任务上存在局限性，用户可在Google AI Studio体验。

Python程序员小泉

436人浏览 · 2025-11-27 14:48:52

Python程序员小泉 · 2025-11-27 14:48:52 发布

一觉醒来，我的社媒就被最新发布的哈基米刷爆了。

即使是 Cloudflare 服务全球宕机这样的重磅新闻也没有压过哈基米的风头。

网络上铺天盖地各种吹。

我也充满期待立刻去实测了一波，但或许是期望太高，Gemini 3 的实际效果并没有达到我的预期。

实测中能感受到它很强，但翻车也不少。

在端上实测之前，先来一起感受一下它实力刷榜的暴力美学。

一、暴力霸榜

官方称这是最智能的模型。

这句话不是嘴上说说，而是有数据做支撑。

Gemini 3 在大多数基准测试中直接登顶。

不仅是登顶，在不少榜单中更是以断层的实力遥遥领先。

挑几个说一下，大家可以感受一下它恐怖的统治力。

在“人类终极测试”（ Humanity’s Last Exam ）中，不开工具的情况下 Gemini 3 pro 就能取得 37.5% 的分数，直接甩 GPT-5.1 10% 。

在 ARC-AGI-2 基准上把 SOTA 成绩直接推到了 31.1% ，这个成绩超 Claude Sonnet 4.5 两倍。而且，Gemini 2.5 pro 之前的成绩是 4.9% 。这是翻了多少倍大家可以算一下。

在涵盖了各种困难数学竞赛题的 MathArena Apex 基准上，各家模型还没有摸到 2% 的分数线，Gemini 3 pro 猛地干到了 23.4% 。

此时需要配音一句 unbelievable ！

建议以后模型屠榜都按这个标准来。

目前还是 LMArena 榜单上唯一一个上 1500 分的模型，也让 Grok 4.1 这波顶登的十分短暂了。

就连奥特曼和老马都第一时间送上祝贺。如果实力接近还能互相较劲几句，但面对这种绝对差距，能做的只有：祝贺，然后回头继续卷。

榜单飞升的背后究竟是不是藏着新一代的智能？看看实测效果就知道。

二、模型实测

鹈鹕骑车

先来一个大家津津乐道的鹈鹕骑自行车。

Generate an animated SVG of a pelican riding a bicycle, set against a whimsical background. The background should include elements like a fluffy cloud sky, a winding path, and perhaps some cheerful flowers.

问题还是挺明显的，自行车没有脚蹬，鹈鹕骑车脚的动作也不合理。

于是我进一步输入提示词让它加上脚蹬。

这一次脚蹬加上了，但是动作和平常人骑自行车还是有差别。但仔细看鹈鹕每一下还真踩到了脚蹬上，或许这就是哈基米眼中鹈鹕骑自行车的方式吧……

我不死心地再试了一次，要求它让鹈鹕像人类骑车那样实现腿部动作，效果如下：

这次的效果还不错，脚也能像人一样正常骑车了。看来 Gemini 3 pro 的能力够，但提示词要给得足够具体。

3D 风扇

再来一个生成风扇任务，来看看佬友用它实现的效果。

虽然细看仍有瑕疵，比如扇叶偶尔出模、转动略假，但整体表现非常惊艳：有质感的 UI 设计，出色的 3D 模型构建能力，风扇能摆头有档位，并且不同档的声音也不同。

特别是光影效果的处理，实时高精光影的表现，比如不同颜色，不同材质面，不同光源位置都会有不同的效果，真就让人叹为观止了。

不同端的适配也没问题。

对比一下昨天的 Grok 4.1 生成的效果，说哈基米 3 碾压一点不夸张。

不过公平起见需要说明一下 Grok 4.1 的效果是一次直出，而上面哈基米的效果是经过多次提示词调试后的。

网页生成

再来测一下它招牌的网页生成能力。

我用了下面的提示词，看它能不能猜到我是在说开头提到的 Cloudflare 事件。

刚刚互联网发生了一件大事，请帮我总结一下它的影响，并和历史上的类似事件进行梳理总结，生成一个极具现代美感的网页

效果相当不错，个人比较喜欢这个风格，特别是首页字体的滑动扭曲效果。根据哈基米的说法这个风格是：

Digital Brutalism (数字粗野主义) 结合 Glitch Art (故障艺术)。高对比度的黑白红配色，模拟终端代码与报错界面的美学。

多模态理解能力

官方还提到了 Gemini 3 拥有世界领先的多模态理解能力。

我把上面网页的录屏发给它，让它帮我看看首页字体的效果是什么。

它不仅能精准理解我指的是哪部分文字，还能看懂字体的效果，并给出代码示例。

我又给了它一张白天的图片，让它生成晚上的样子。

它直接给我生成了一个让图片白天转夜晚的工具。

至于上面这个效果，与其说是晚上，更像是转换成了一个昏暗的白天。

换另外一张图片试了下。

虽然夜晚效果实现的更好，但是图片内容有了明显的改动。

乐高模拟器

来看网友用它做的乐高模拟器，声称 one shot 直出，效果也是非常好。

网友也分享了使用的提示词。

但我用该提示词跑了很多遍，实现的效果别说接近了，差的离谱，甚至会连乐高模块都没有。

评论区也有不少人有同样的反馈。

所以我大胆猜测，这个效果十有八九还是需要多次调试才能出来。

他分享的提示词我也放在下面了，感兴趣的小伙伴可以上手试一下。

“Make a 3D LEGO editor. Come up with the functionalities yourself, something that makes sense. All in one HTML file”

游戏生成

最后来看看它做游戏的能力。

网友用它复刻了 IOS 端的钓鱼小游戏 Ridiculous Fishing 。

画面和音效都不错。

我也用它复刻了经典小游戏 Flappy Brid ，一次直出的效果如下。

基本功能实现没问题，能玩起来。

接着上了点难度，让它模仿纪念碑谷生成一个关卡即可。最后得到的页面纹丝不动如下：

三、最后

整体来说，性能确实提升明显，尤其是上限变高了。

不过在难度高一些的任务上，需要配合具体的提示词和多次调试才能达到理想的效果。

大家可以到 Google AI Studio 亲自体验一下。

指路链接：

https://aistudio.google.com/apps

在 Gemini 网页端也可以使用。

四、如何学习AI大模型？

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

请添加图片描述
第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

MaxKB实现DataBase数据查询分析与AI问答功能

2048 AI社区

老版本springboot项目本地部署大模型并实现后端调用

我只是一个菜鸟程序员，不过希望这篇博客可以给同行一些参考，笑料也行，毕竟我还不强。

2048 AI社区

openGauss向量数据库：赋能智能制造的工业AI实践

2048 AI社区

所有评论(0)

查看更多评论

Python程序员小泉

@m0_59162248

已为社区贡献477条内容