Google发布 Gemini 2 5 Pro Experimental 超越所有模型重夺第一

这一版本被描述为 Google DeepMind 迄今为止最智能的模型，强调其“思考”能力（thinking capabilities）的突破，旨在提升复杂问题解决能力和回答的准确性。

埼玉君

1224人浏览 · 2025-03-28 14:17:08

埼玉君 · 2025-03-28 14:17:08 发布

Google发布 Gemini 2.5 Pro Experimental 超越所有模型重夺第一

Google 发布 Gemini 模型的最新更新，推出 Gemini 2.5 Pro Experimental 版本

这一版本被描述为 Google DeepMind 迄今为止最智能的模型，强调其“思考”能力（thinking capabilities）的突破，旨在提升复杂问题解决能力和回答的准确性。

Thinking Model（思考型模型）

大幅提升逻辑推理、编码生成、复杂任务处理能力
在多个领域标准评估中取得 SOTA 成绩

Gemini 2.5 的“思考能力”（Thinking Capabilities）

不只是分类或预测
而是：
- 分析信息 → 推理过程 → 得出结论 → 做出判断
包括：
- 上下文理解
- 多步逻辑推理
- 细节整合与假设检验

🔄 技术路径

继承自 Gemini 2.0 的 Flash Thinking 技术
在此基础上，2.5 通过：
- 更强大的基础模型结构
- 更完善的后训练机制（post-training）实现推理力的质的飞跃

📐 上下文窗口扩大

当前支持 1M tokens 上下文，即 100 万 tokens
已测试支持 2M tokens（200 万）
可处理整本书、整站网页代码、视频字幕、复杂长表格等
上下文中的图片、语音也可以一起分析推理

🖼️ 多模态原生支持（非外挂）

原生支持：
- 文本
- 图片（含图表、草图、照片）
- 视频（含字幕、动作识别、语义理解）
- 音频（如语音合成/识别）
- 代码（整 repo 分析）
Gemini 2.5 并非“图像处理外挂模型”，而是统一架构共享注意力机制，实现图-文-音-码同源协同处理。

模型评估成绩

Gemini 2.5 在以下方面超越前代：

🧠 推理能力表现

在 Humanity’s Last Exam（测试 AI 在人类高阶知识推理的能力）中，Gemini 2.5 创下 18.8% 得分，为无工具模型中全球最强。
在 LMArena 上，获得当前人类偏好最高分

💻 代码能力表现

在 SWE-Bench Verified（真实软件修复任务）中：
- Gemini 2.5 使用思考代理，得分高达 63.8%，表现优于所有已发布模型，包括 Claude 3.5、GPT-4o 和 DeepSeek 等
Gemini 2.5 代码能力包括：
- 分析错误提示 → 修改源码 → 调整测试脚本
- 根据自然语言 issue 描述完成代码编辑任务
- 可执行包括多文件协调、依赖管理、模块接口匹配等复杂工程任务

多模态能力

支持处理：
- 文本、图像、视频、音频、代码、对话等输入
在 Gemini 1.5 的基础上进一步提升多模态理解与融合效果

📊 其他任务能力

模型架构升级亮点（技术部分）

🏗 架构继承自 Gemini 1.5

Transformer + Mixture of Experts（MoE）架构
原生支持多模态 token 表达（图像、视频、音频作为 token 流输入）

🔍 新增优化点

强化长上下文建模能力
- 当前支持 100 万 tokens 上下文
- 即将推出 200 万 tokens 版本，匹配 Claude 3.5 的水准
改进的 Flash Attention v2 + KV 缓存结构
- 提升长序列处理效率
- 保持对 prompt 中长程依赖的理解
代理结构对接 Agentic Planning
- Gemini 2.5 已能支持 step-by-step planning
- 可做任务计划拆解 → 工具调度 → 回收结果 → 总结优化

研发策略：“思考能力优先”的新训练范式

DeepMind 的研究方向正在从：
- 语言能力 → 多模态能力 → 思考能力（reasoning first paradigm）
具体策略包括：
- 对推理路径建模（step-wise target modeling）
- 思维链标注数据构建（CoT + debates + plans）
- 扩展式对话记忆调度系统（contextual memory router）
- 过程反馈学习（process supervision）
这意味着：不再只是关注“最终答案对不对”，而是要看“怎么得出的”，是否像人一样思考。

📈 Google 未来三步走

“思考力”标准化：每代 Gemini 模型都将内建结构化思维能力
Agent 系统扩展：发展为具备持续记忆、环境交互能力的 AI 系统
结合 Google 生态能力：
- DeepMind + Search + Workspace
- 代码 + 文档 + 视频 + Gmail 一体智能助理

开发人员和企业现在可以开始在 Google AI Studio 中试用 Gemini 2.5 Pro，Gemini Advanced 用户可以在桌面和移动设备的模型下拉列表中选择它。它将在未来几周内在 Vertex AI 上提供。

有需要的同学可以联系客服

我们的技术博客：DogAPI-人工智能接口商城

DogAPI 成立于 2022 年 12 月，源于全球人工智能浪潮的兴起，尤其是 OpenAI 发布 ChatGPT 后，推动了AI技术在各行业的广泛应用。我们是这一发展浪潮中最早诞生的人工智能衍生产品服务商之一，致力于为开发者和用户提供高效、创新的 AI 解决方案。

2023 年 1 月，我们在新加坡成立了 DogAPI，一个专注于为全球开发者和用户提供AI衍生服务的专业平台。我们的业务涵盖了多项AI产品和服务，通过我们的平台，企业与个人用户能够轻松访问、集成并应用最前沿的人工智能技术，提升业务效率，推动创新发展。

我们的服务类型

AI代充服务：我们深知地域限制可能为某些用户带来的不便，因此为在受限区域的企业和个体提供便捷的、稳定的、无障碍的、一站式的AI工具升级服务。

AI接口供应：DogAPI已为多家全球顶级企业和数千家AI企业提供API服务，为大模型训练厂商们提供了最刚需的API接口和Claude接口供应，包括为AI创业者们提供了超数百万美元的中转API供应。我们的API解决方案旨在为企业与创业者们提供高效的、稳定的、便捷的、一站式的API消耗供应，助力AI技术更好地服务于实际应用。

AI芯片中心：致力于为AI大模型训练的企业提供GPU导购和支持服务。我们与谷歌云代理商合作，提供H100、A100等各类AI算力显卡，并为客户提供8折优惠。我们的专业团队拥有丰富经验，旨在帮助AI企业解决算力挑战，推动AI发展，促进人类社会进步。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【Datawhale】大模型基础与量化微调-t2

GPT-2 有 15 亿参数，比原 GPT 大了 10 多倍，在受测的 8 个语言模型数据集上拿了 7 个 SOTA，采用 **零尝试迁移配置（zero-shot transfer setting）**不需要任何任务微调。175B的参数将GPT3展示出强大的上下文学习能力（In-context Learning），即在推理阶段，不需要更新模型权重，仅凭输入提示中给出的少量示例，就能理解并完成任务。