2026年2月12日,谷歌正式宣布对 Gemini 3 Deep Think 推理模式进行重大升级。这款专为复杂科学、研究与工程场景打造的“深度思考”模式,在与各领域科学家、研究人员深度合作后,能力迎来飞跃式提升。它专攻那些边界模糊、数据杂乱、没有唯一解的真实世界难题,正把大模型从“聪明助手”推向“科研伙伴”的新时代。

升级背景:为什么需要“Deep Think”?

现代科研与工程问题往往充满不确定性:实验数据噪声大、理论模型不完备、跨学科交叉复杂。传统大模型在简单问答或标准任务上表现出色,但在高难度开放式问题上仍显吃力。Deep Think 正是为此而生,通过强化多步链式推理、抽象概括能力和领域知识深度整合,针对“无清晰路径”的难题提供可靠支持。

此次升级后,Deep Think 从2月12日起已在 Gemini 应用中向 Google AI Ultra 订阅用户开放。同时,谷歌首次通过 Gemini API 向部分研究人员、工程师和企业推出“早期访问计划”,开放申请通道,加速其在真实科研流程中的落地。

Gemini 3 Deep Think rolls out to paid subscribers | Mashable

How to Use Gemini 3: The New “Deep Think” Mode Explained (Plus the  “Antigravity” Feature No One Is Talking About) | by Shadhujan Jeyachandran  | Generative AI

图1-2:Gemini 3 系列标志性界面与 Deep Think 模式视觉呈现,展现谷歌最新前沿 AI 的科技感。

硬核基准表现:多项金牌级突破

谷歌官方公布的最新成绩令人震撼(全部无外部工具、独立验证):

  • Humanity's Last Exam(终极人类考试,无工具):48.4% —— 创下新标准,远超多数前沿模型。
  • ARC-AGI-2(抽象推理基准,由 ARC Prize Foundation 验证):84.6% —— 创纪录表现,真正接近人类级抽象概括能力。
  • Codeforces(竞赛编程 Elo 分):3455 —— 全球仅约 7 人能超越,编程推理已达人类顶级专家水平。
  • International Math Olympiad 2025(IMO 2025):金牌级表现。
  • International Physics Olympiad 2025(IPhO 2025 理论部分):87.7% —— 金牌区间。
  • International Chemistry Olympiad 2025(IChO 2025 理论部分):82.8% —— 金牌级别。
  • CMT-Benchmark(凝聚态理论物理基准):50.5% —— 在大学/研究所级前沿理论问题上展现显著潜力。

这些成绩表明,Deep Think 已在数学、物理、化学、编程等多领域达到或接近人类顶尖竞赛/研究水平。

Gemini 3 Deep Think gets math, physics, and coding performance improvements

图3-4:Gemini 3 Deep Think 在多项极限基准上的对比柱状图(ARC-AGI-2、Humanity's Last Exam、Codeforces、物理/化学奥赛等),直观展示其领先优势。

真实科研落地案例:从理论到实验

谷歌强调,Deep Think 的价值远不止刷分,已在实际场景中发挥作用:

  • 与 Rutgers 大学数学家 Lisa Carbone 合作,审阅高能物理领域连接广义相对论与量子力学的技术论文,发现同行评审遗漏的逻辑漏洞。
  • 辅助半导体晶体生长工艺优化,帮助工程师通过代码建模物理系统。
  • 解释复杂实验数据集、辅助实验设计、审阅数学/物理论文等。

这些案例证明 Deep Think 正逐步融入大学实验室、研究所和企业研发流程,成为“科学家的大脑外挂”。

Romania wins one gold, four silver medals at the 2025 International Physics  Olympiad | Romania Insider

Romania wins one gold, four silver medals at the 2025 International Physics Olympiad | Romania Insider

图5:国际物理奥林匹克(IPhO)颁奖现场实拍,金牌象征着 Deep Think 在物理领域已达到的世界顶尖高中生竞赛水平(未来有望向 PhD 级推进)。

前瞻:AI 如何重塑科研范式?

Deep Think 的升级不仅是技术迭代,更是谷歌对“AI 加速科学发现”战略的深化落地。未来,随着推理计算规模继续扩展(scaling law 依然有效),模型有望攻克更多 PhD 级难题,甚至在开放式发现中提出新假设。

Sundar Pichai CEO 在 X 上表示:“Gemini 3 Deep Think 迎来重大升级,我们与科学家们共同打磨它,以应对真实世界中最棘手的挑战。它正在推动前沿基准的极限。”

一句话总结:Gemini 3 Deep Think 已不再是“会刷题”的 AI,而是能拿奥赛金牌、帮审论文、优化实验的硬核科研助手。物理、化学、数学、工程——哪里有最难的骨头,它就往哪里啃。

你已经申请早期访问了吗?或者在 Gemini App 里试过 Deep Think?欢迎评论区分享你的使用体验~

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐