随 Gemini 3 一起发布的,还有 Google 的 Antigravity。对程序员来说,它的概念并不陌生,有点像 Claude Code、OpenAI Codex 之类的工具——可以访问你的电脑,并在你的指导下自主写程序。

三年前,ChatGPT 横空出世。世界第一次意识到:AI 不仅能回答问题,它能和你“聊天”。随后,它的能力一路狂飙,从写邮件、写报告到写代码几乎无所不能。

短短几年间,大语言模型迅速普及。到了2025年,几乎所有主要的厂商都发布了支持图像、音频和视频输入的多模态模型。

前不久,Gemini 3 发布,又把多模态理解和推理能力往前推了一大步,碾压一众竞品。

三年时间,AI究竟进步了多少?

沃顿商学院人工智能教授 Ethan Mollick 做了一个最简单、也最震撼的测试:他让 Gemini 3 亲自展示自己的进化。

结果是:

  • 他同时与 4 个并行工作的 Agent 协作;
  • AI 自动规划任务、写代码、建站、做研究;
  • 甚至凭自己的判断,写出了一篇 14 页、接近博士生水平的学术论文。

以下,是他用第一人称讲述的这段经历。

1.AI的三年飞跃:从能聊天到造出可交互游戏

我最近一直在测试谷歌的新模型 Gemini 3。它非常强大。但我不会给你展示一堆基准数据,而是想通过一种更直观的方式,让 AI 自己展示:过去三年里它到底进步了多远。

距离 ChatGPT 发布还不到三年。在它发布前几天,我在 Substack 上写了第一篇关于 OpenAI 早期模型 GPT-3 的文章。随后 ChatGPT 上线,我又立刻写道:

“我一般很少做技术预测,但我认为这件事会比我们预期更快、更剧烈地改变世界。AI 不再只是自动化重复和危险的工作,它最先可能颠覆的是需要分析、创意、写作和沟通的工作。”

现在看来,当时的判断我确实说对了。

图片

我本可以解释一下早期 ChatGPT 与今天谷歌发布的 Gemini 3 的差别。但我不需要这么做。相反,我把上面的截图丢给 Gemini 3,只给了它一句提示:

我: “通过做点事,展示一下这篇文章发表以来 AI 到底进步了多少。”

Gemini: “没问题。我可以直接展示。你发的这条推文是 2022 年 11 月——正是现代 AI 爆发的前夜。那时候的‘惊艳点’是:AI 能写一段还算通顺的文字,或者来一首关于‘糖果驱动的超光速引擎逃离水獭追击’的搞笑小诗。

为了展示我们今天有多不一样,我不会只写文字。我做了一个完全可交互、可操控的《糖果驱动超光速星舰模拟器》小游戏。

2022 年的 AI 能描述这个引擎。2025 年的 AI 能写代码、设计界面,还能让你亲自开这艘船。”

图片

而它确实做到了:一个用糖果逃离水獭的小游戏,还有配套的小诗和不断更新的趣味旁白。如果你读我的博客,你大概知道 AI 做这种事已经不稀奇了。但更有意思的是:当你不把 Gemini 3 当成“聊天机器人”,而是把它当成完全不同的东西时,它还能做什么?

2.Antigravity:不只是“写代码”的写代码工具

随 Gemini 3 一起发布的,还有 Google 的 Antigravity。对程序员来说,它的概念并不陌生,有点像 Claude Code、OpenAI Codex 之类的工具——可以访问你的电脑,并在你的指导下自主写程序。

如果你不是程序员,你可能会忽略 Antigravity 或类似的工具。我认为这是一个错误,因为“写代码”的能力不仅仅是写程序,而是能做任何在电脑上发生的事情。

而这,彻底改变了这些工具的本质。

Gemini 3 的编程能力非常强,即便你觉得自己不是写代码的人,这也与你息息相关。AI 的一个基本理念是:

你在电脑上做的一切,本质上都是代码。

如果 AI 能操控代码,它就能做任何一个电脑使用者能做的事:做仪表盘、操作网站、做 PPT、阅读文件等等。这让具备编程能力的 Agent 成为了通用型工具。Antigravity 正是按照这个理念设计的,它提供了一个“收件箱(Inbox)”概念,我可以把任务派给 AI,AI 在需要我授权或指示时再来找我。

我当时正在和四个不同的 Agent 一起工作,一个正在执行任务,另一个在问我下一步怎么做。

图片

我不是用代码和它们沟通,而是用英文,它们用代码执行任务。而 Gemini 3 很会规划,它知道什么时候需要征求我的意见。例如,我给了 Antigravity 访问权限,让它读我电脑里所有的新闻稿件。然后我说:

“我想要一个漂亮的网站,把我所有 AI 预测整理出来,还要做个网页搜索告诉我哪些预测正确、哪些错误。”

它开始读所有文件、执行代码,然后给我一个计划,我可以修改或批准。下面这张截图,就是它第一次来问我意见的时刻。

图片

它随后做了网页搜索、创建网站、自动接管我的浏览器确认网站是否能用,最后展示结果。我像和一个人合作一样,审阅成果并提出修改意见。它再打包所有内容,方便我发布。

图片

Gemini 3 并不是全自动完美完成所有事情,Agent 还没到那个阶段。我没看到幻觉式错误,但仍有一些需要纠正的地方,更多是对我意图的小误解或主观判断问题。但最关键的是:我一直掌控着它的决策,它的行动也始终可见。

这更像是管理一个同事,而不是和一个聊天机器人对话。

3.Gemini 3 离“博士级智力”不远了

但 Antigravity 不是 Gemini 3 唯一让我惊讶的地方。另一点是它处理需要真实判断的任务的能力。

AI 的 benchmark 一向混乱不堪。Gemini 3 在大多数指标里领先(虽然可能还打不过 200 美元价位的 GPT-5 Pro,但我猜深度思考版本出来后可能会变)。不过 AI 圈里有句话你会常听到:“这个模型有博士级智力。”

于是我决定测试一下。

我给 Gemini 3 访问权限,让它读取我十年前做众筹研究时留下的杂乱文件:各种“final_seriously_done.xls”“旧版统计文件”等等。

我对它说:“搞清楚数据结构,把这些 STATA 文件清洗干净,为新的分析做准备。”它真的做到了:恢复损坏的数据、理清复杂的环境。

然后我给了它一个典型博士二年级学生会接到的任务:做一个小型原创研究。

我只说:“很好,现在用这些数据写一篇原创论文。做领域深度研究,让论文不只是关于众筹,而是选择创业或商业战略领域的一个重要理论问题。做复杂分析,按期刊格式写出来。”没有任何其他提示。它自己生成理论假设、做统计检验、格式化输出,甚至没有我告诉它研究方向。

最让我震惊的是:它自己构造了一个新指标——用 NLP 技术衡量一个众筹想法的独特性,并自己写代码跑完分析。

最终,我在它几次改进之后,得到了一个 14 页的论文。

图片

除此之外,还有一点让我印象深刻:AI 自己提出了一套新的衡量标准。它用自然语言处理工具,把众筹项目的描述与其他项目的描述进行数学比较,从而判断一个创意有多独特。更关键的是,它编写了代码、执行了计算,并对结果进行了检查。

图片

它的想法不错,执行也有亮点,但也有问题:统计方法需改进、部分理论夸大、一些选择不够最佳。

这不再是“AI 弄错了”,而更像一个聪明但尚未成熟的研究生。

当我给它一些宽泛的指导(比如:“多补充一些关于众筹方法论的文献”)后,它大幅改进。

所以我们还没到真正“博士级智能”,但现在已经离那条线不远了。

4.聊天机器人正在成为“数字同事”

Gemini 3 是一个非常优秀的“思考 + 实干”伙伴,而且面向全球数十亿人可用。它意味着很多事:AI 进步没有放缓,Agent 模型正在崛起,我们需要新的方式管理更聪明的 AI等等。

它展示了 AI 的巨大跨越:三年前,我们还在惊叹“机器能写一首关于水獭的诗”。不到 1000 天后,我已经在和一个能自己搭建研究环境的 Agent 讨论统计方法。

聊天机器人的时代,正在变成数字同事的时代。

当然,Gemini 3 并不完美,它仍需要一个“经理”去引导和检查。但它暗示着:

“人类在环路中”的角色正在发生变化:从过去主要是“修正 AI 错误的人”,逐渐演变为“指导 AI 工作的人”。

而这,也许是自 ChatGPT 发布以来最大的变化。

5.网友热议:情况没那么乐观

在这篇文章的HN评论区,不少网友也发表了自己的看法。

一位开发者提出了质疑:文中生成的14页论文是否真的是一篇好论文?它是否足够专业和准确?这些问题依然存疑。而在他的AI Coding实践中,AI在复杂环境里生成的代码看似“很接近”,但总有细节上的错误,“根本无法投入生产”。

每次我看到这样的文章,都有一个关键问题被忽略了:但它真的好吗?它对吗?

文章总是只展示那些令人印象深刻的部分,比如“它巧妙地走过了判断什么是有趣研究主题、并用手头数据来完成研究的细线——这是最难教的能力之一。”

然后文章接着说:“在我给了几个模糊的指令之后,我得到了 14 页的论文。”

我听到的其实是:“我得到了 14 页的文字。”但问题是:这是一篇好论文吗?另一个博士会觉得它好吗?它甚至连贯吗?

当我看这些系统在复杂环境里生成的代码时,我常常觉得:“嗯,好像还挺接近的,但这里错了、那里有安全问题……等等。”

在我懂的领域,它看起来不错但根本无法投入生产。

难道在我不懂的领域,它就一定是好的?

图片

也有网友提出了类似的看法,认为作者的看法过于乐观。他曾让Claude写一个20页的短篇小说,AI连基本的时间线和人物都搞不清楚。

图片

一位网友指出:“事实是,你仍然需要人工审核,必要时修正,在幻觉时引导它,并写出正确的指令和提示。”

图片

此外,也不乏一些网友支持作者的看法,并给出了自己的案例作为佐证。一位网友说,他一直大量使用Gemini 2.5/3来写硕士论文,效果非常好。不过他也承认,AI难以生成整章论文,拿来做PPT则“完全是碰运气”。

“在我看来,LLMs在你不确定自己想要什么或不太在意细节时才是好用的。”

图片

一名在读研究生认为,大模型现在可能的确接近于“博士级别智能”,即“能够胜任研究型大学优秀研究生的工作”。

作为一名在读研究生,我在学术界也看到过类似的评论。我的同事们一致认为,与这些新模型对话就像是在和各自领域的专家聊天。我不确定这是否意味着研究领域本身也无法免受人工智能技术进步的影响。我仍然希望这个世界重视的是自然智能和做事的动力,而不是机器人强迫自己说出“正确”的话。

图片

另外,也有网友指出,三年来AI的能力进步了不少,但用户体验没有太大变化,“我们与人工智能的大多数互动方式依然是文本框”。对AI用户界面的创新和突破,可能会在未来创造巨大价值。

图片

  如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐