Gemini 2.5 计算机使用模型登场
今年早些时候,某机构提到将通过 Gemini API 为开发者带来计算机使用能力。今天,正式发布 Gemini 2.5 计算机使用模型。这是一个基于 Gemini 2.5 Pro 的视觉理解和推理能力构建的新型专用模型,能够驱动可与用户界面交互的智能体。在多个网页和移动端控制基准测试中,该模型的性能超越了领先的同类产品,并且延迟更低。开发者现在可以通过某机构 AI Studio 和某机构 Vert
概述
今年早些时候,某机构提到将通过 Gemini API 为开发者带来计算机使用能力。今天,正式发布 Gemini 2.5 计算机使用模型。这是一个基于 Gemini 2.5 Pro 的视觉理解和推理能力构建的新型专用模型,能够驱动可与用户界面交互的智能体。在多个网页和移动端控制基准测试中,该模型的性能超越了领先的同类产品,并且延迟更低。开发者现在可以通过某机构 AI Studio 和某机构 Vertex AI 上的 Gemini API 来使用这些能力。
虽然 AI 模型可以通过结构化 API 与软件交互,但许多数字任务仍然需要直接与图形用户界面打交道,例如填写和提交表单。要完成这些任务,智能体必须像人类一样浏览网页和应用:进行点击、输入和滚动操作。能够原生地填写表单、操作下拉菜单和过滤器等交互元素,以及在登录后进行操作,是构建强大的通用智能体的关键下一步。
工作原理
该模型的核心能力通过 Gemini API 中新的 computer_use 工具暴露出来,并应在循环中运行。工具的输入包括用户请求、环境的屏幕截图以及近期操作的记录。输入还可以指定是否从完整的受支持 UI 操作列表中排除某些功能,或添加额外的自定义功能。

随后,模型会分析这些输入并生成一个响应,通常是一个代表某种 UI 操作的函数调用,例如点击或输入。此响应也可能包含请求最终用户确认的指令,这对于某些操作(如进行购买)是必需的。客户端代码随后执行接收到的操作。
操作执行后,新的 GUI 屏幕截图和当前 URL 会作为函数响应发送回计算机使用模型,从而重新开始循环。这个迭代过程将持续进行,直到任务完成、发生错误或因安全响应或用户决策而终止交互。
Gemini 2.5 计算机使用模型主要针对网页浏览器进行了优化,但在移动 UI 控制任务上也展现出巨大的潜力。目前尚未针对桌面操作系统级控制进行优化。
性能表现
Gemini 2.5 计算机使用模型在多个网页和移动端控制基准测试中表现出强大的性能。下表包含了来自自行报告的数据、由某机构运行的评估以及内部运行的评估结果。除非另有说明,显示的分数均指通过 API 暴露的计算机使用工具。

根据在某机构的 Online-Mind2Web 测试工具上的性能测量,该模型在以最低延迟提供领先的浏览器控制质量方面表现出色。

安全方法
某机构认为,构建能够惠及所有人的智能体的唯一方法是从一开始就负责任。控制计算机的 AI 智能体会引入独特的风险,包括用户的故意滥用、意外的模型行为以及网络环境中的提示注入和欺诈。因此,谨慎实施安全防护措施至关重要。
已直接将安全功能训练到模型中,以解决三个关键风险。此外,还为开发者提供了安全控制措施,使开发者能够防止模型自动完成潜在高风险或有害的操作。这些操作的示例包括损害系统完整性、危及安全、绕过验证码或控制医疗设备。
控制措施包括:
- 单步安全服务:一个模型外的、推理时的安全服务,在执行之前评估模型提出的每个操作。
- 系统指令:开发者可以进一步指定,在智能体采取特定类型的高风险操作之前,要么拒绝操作,要么请求用户确认。
- 额外建议:关于安全措施和最佳实践的额外建议可在文档中找到。虽然这些安全措施旨在降低风险,但敦促所有开发者在发布前彻底测试他们的系统。
早期测试者的使用情况
某机构内部团队已将该模型部署到生产环境中,用于包括 UI 测试在内的用例,这可以显著加快软件开发速度。该模型的多个版本也一直为某机构项目、某机构 Firebase 测试智能体以及搜索中的 AI 模式的某些智能体能力提供支持。
早期访问计划的用户也在测试该模型,用于驱动个人助理、工作流自动化和 UI 测试,并取得了良好的效果。例如:
- 某机构:“我们的许多工作流程需要与为人设计的界面进行交互,速度尤其重要。Gemini 2.5 计算机使用模型远远领先于竞争对手,通常比我们考虑的下一个最佳解决方案快 50% 且效果更好。”
- 某机构:“我们的智能体完全自主运行,执行工作时,在收集和解析数据方面的小错误是不可接受的。Gemini 2.5 计算机使用模型在可靠地解析复杂案例的上下文方面优于其他模型,在我们最难的评估中性能提升了 18%。”
- 某机构支付平台团队:“当常规脚本遇到故障时,该模型会评估当前屏幕状态,并自主确定完成工作流程所需的操作。这一实现现已成功修复了超过 60% 的执行(以前需要花费多天时间修复)。”
如何开始使用
即日起,该模型以公开预览版的形式提供,可通过某机构 AI Studio 和某机构 Vertex AI 上的 Gemini API 访问。
- 立即尝试:在由某机构托管的演示环境中试用。
- 开始构建:深入研究参考文档和说明,了解如何使用某机构工具在本地或使用某机构在云虚拟机中构建自己的智能体循环。
- 加入社区:期待看到构建的应用。欢迎在开发者论坛中分享反馈,帮助指导产品路线图。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
更多推荐


所有评论(0)