UFO²:微软推出的新一代桌面 Agent 操作系统,深度整合 Windows 与智能自动化
两者结合,再通过基于边界框的去重算法进行融合,最终形成一个统一的、全面的控件视图,为后续的准确操作打下了坚实基础。UFO² 的核心目标是突破传统自动化工具的局限,通过自然语言驱动、多应用协同和智能化的任务执行,彻底改变用户与计算机交互的方式,引领桌面自动化进入 “AgentOS 时代”。用户可以在主桌面上继续正常工作、娱乐,完全不受自动化任务干扰,从根本上解决了传统自动化工具 “霸占” 屏幕和输入
本文转载自:https://www.hello123.com/ufo²
**
一、微软 UFO²:Windows 桌面智能体操作系统的革新与实战解析
💻 微软 UFO²(Unified Functional Optimization Operating System)是微软在 2025 年对其开源智能体系统 AgentUFO 的重大升级版本,它被设计为一个深度集成于 Windows 操作系统的多智能体代理操作系统(AgentOS)。UFO² 的核心目标是突破传统自动化工具的局限,通过自然语言驱动、多应用协同和智能化的任务执行,彻底改变用户与计算机交互的方式,引领桌面自动化进入 “AgentOS 时代”。
一、核心功能亮点
UFO² 不仅仅是一个自动化工具,更是一个深度融合操作系统能力的智能平台。它通过一系列创新功能,显著提升了任务执行的效率和可靠性。
1.1、自然语言解析与多智能体协作
UFO² 的核心是其多智能体架构。HostAgent 作为 “大脑”,负责解析用户的自然语言指令,并将其智能拆解成有序的子任务。然后,它会协调一系列专门的 AppAgent 来执行这些任务,每个 AppAgent 都像是某个特定应用程序的 “专家”,拥有其深度的 API 知识和交互能力。这种设计使得跨应用的复杂工作流协调成为可能,例如,它可以轻松处理 “从 Outlook 附件中提取 Excel 数据,分析后并将图表插入 PowerPoint” 这类指令。
1.2、统一的 GUI-API 混合执行模式
这是 UFO² 的一大技术创新。它通过一个名为 Puppeteer 的统一接口,智能地决定是调用应用程序的原生 API 还是模拟 GUI 操作。对于标准且高效的操作(如在 Excel 中通过 API 直接生成图表),它会优先调用原生 API,其执行效率远超传统 RPA 的模拟点击;而对于那些没有 API 或 API 不可用的操作,则无缝切换至基于 GUI 的自动化。这种混合模式极大地增强了任务的鲁棒性和执行速度,降低了对界面变化的敏感性。
1.3、混合控件感知技术
为了在各种界面环境下都能可靠地 “看见” 和识别控件,UFO² 融合了Windows 原生的 UI Automation (UIA) API和先进的视觉识别模型 OmniParser-v2。UIA 可以精准获取标准控件的丰富元数据,而 OmniParser-v2 则能有效识别那些自定义、非标准的 UI 元素。两者结合,再通过基于边界框的去重算法进行融合,最终形成一个统一的、全面的控件视图,为后续的准确操作打下了坚实基础。
1.4、持续的知识集成与增强
UFO² 具备 “持续学习” 的能力。它采用检索增强生成(RAG)技术,动态地整合外部应用文档、更新日志以及历史执行的成功经验。这意味着当应用程序更新或出现新功能时,UFO² 能够通过查询其知识库快速适应变化,而无需等待系统级的重新训练或更新,从而越用越聪明。
1.5、推测式多步执行
为了减少与大语言模型(LLM)的交互次数,降低延迟和计算成本,UFO² 引入了推测式多步执行机制。智能体可以一次预测多个后续操作步骤,然后通过轻量级的 UI 状态校验来逐步执行和验证。这项技术最高可减少 51.5% 的 LLM 调用次数,显著加快了任务响应速度。
1.6、画中画(PiP)虚拟桌面执行环境
UFO² 引入了极具实用性的画中画模式。它利用 Windows 自带的远程桌面服务,创建一个轻量级、隔离的虚拟桌面环境。所有的自动化任务都在这个 “沙盒” 中运行,与用户的主桌面完全分离。用户可以在主桌面上继续正常工作、娱乐,完全不受自动化任务干扰,从根本上解决了传统自动化工具 “霸占” 屏幕和输入设备的问题,同时增强了安全性和用户体验。
二、性能表现与实测数据
根据微软团队在 2025 年进行的严格基准测试,UFO² 在超过 20 款主流 Windows 应用程序(如 Excel、Outlook、Edge 等)中展现了卓越的性能:
- 成功率显著领先:在 WAA 测试集中,UFO²(使用 o1 模型)的任务成功率达到30.5%,远超 OpenAI Operator 的 20.8%;在更具挑战性的 OSWorld-W 测试集中,UFO² 成功率更是达到32.7%,对比 Operator 的 14.3%,优势明显。
- 执行效率更高:在 OSWorld-W 测试中,UFO² 平均只需约 5.5 步即可完成一个任务,步骤更为精简,效率更高。
- 复杂场景处理能力更强:在跨应用任务中,UFO² 取得了9.1%的成功率,展现了其优异的协同能力。在面对非标准界面时,其混合控件检测机制也表现出更强的适应性和稳定性。
三、典型应用场景
UFO² 的潜力在各种需要自动化与智能辅助的场景中都能得到发挥:
- 企业办公自动化:自动完成跨 Excel、Outlook、Word 和浏览器的数据整理、报告生成和邮件发送等复杂工作流。
- IT 运维与管理:自动化软件部署、系统配置检查、日志收集与分析等任务,减轻运维人员负担。
- 数据分析与处理:自动从多个数据源提取信息,进行清洗、分析并在 Power BI 等工具中生成可视化图表。
- 客户服务与支持:快速诊断常见问题,例如自动识别系统错误代码并提供初步解决方案。
- 开发与测试:辅助开发者完成环境搭建、代码构建、基础测试用例执行等重复性工作。
- 教育培训:通过自然语言创建沉浸式的软件操作教学演示,降低学习门槛。
四、UFO² 深度评测与竞品对比
2025 年的桌面自动化领域,UFO² 作为一个系统级解决方案脱颖而出。它与传统 RPA 和新兴的 LLM 驱动智能体相比,有其独特优势和面临的挑战。
4.1、产品评测:优势与不足
核心优点:
- 系统级深度集成:与 Windows 原生 API、COM 组件及 UIA 的无缝结合,使其执行效率、精准度和可靠性远超传统基于图像识别和模拟点击的自动化工具。
- 混合执行范式:GUI 与 API 的智能动态选择是其核心竞争力,既能享受 API 的高效精准,又保留了 GUI 操作的通用性,应对复杂场景的能力更强。
- 非干扰式用户体验:画中画虚拟桌面功能是用户体验上的一次飞跃,彻底解决了自动化任务与用户操作之间的冲突,实用价值极高。
- 模块化与可扩展性:多智能体(HostAgent+AppAgents)架构设计清晰,允许为每个应用深度定制和优化,也便于社区和开发者贡献新的 AppAgent。
- 推测执行降低延迟:有效减少 LLM 调用次数,提升了响应速度并降低了使用大模型的成本。
主要缺点:
- 平台锁定:目前深度绑定 Windows 生态系统,对于 macOS 或 Linux 用户而言无法使用,限制了其应用范围。
- 学习与配置成本:虽然支持自然语言,但要实现复杂、可靠的自动化流程,可能仍需一定的技术背景和理解成本,对普通用户可能存在上手门槛。
- 早期阶段生态:尽管开源并吸引了大量关注,但其围绕 AppAgent 的生态系统(可用 AppAgent 的数量和质量)仍处于建设初期,不及一些成熟 RPA 厂商的组件库丰富。
- 性能依赖:其性能部分依赖于所集成的大语言模型(如 GPT-4o),模型本身的推理速度、成本和可用性可能会影响整体体验。
4.2、竞品对比分析
在 2025 年,UFO² 面临的主要竞品可分为传统 RPA 巨头和新兴 AI 智能体两类。
维度 |
微软 UFO² |
传统 RPA (如 UiPath, Power Automate) |
新兴 AI 智能体 (如 OpenAI Operator) |
核心原理 |
系统集成 + 多智能体 + LLM |
脚本录制 / 编排 + 选择器定位 |
多模态 LLM + 视觉识别 |
执行方式 |
GUI 与 API 智能混合 |
主要依赖 GUI 自动化,API 需单独配置 |
主要依赖纯视觉 GUI 操作 |
优势 |
高效、精准、非干扰、高鲁棒性 |
组件丰富、企业级功能、生态成熟 |
灵活性高、通用性强(理论上跨平台) |
劣势 |
Windows 绑定、生态初建 |
脆弱(界面易变)、维护成本高 |
延迟高、可靠性相对较低、干扰用户 |
适用场景 |
Win 平台复杂、长周期任务 |
稳定环境下的固定流程 |
简单、临时的跨平台任务 |
简要分析:
- 与传统 RPA(UiPath, Automation Anywhere, Microsoft Power Automate)相比:UFO² 通过 AI 和系统集成解决了传统 RPA 最根本的 “脆弱性” 和高维护成本问题。传统 RPA 在流程固定、环境稳定的企业中仍有价值,但在需要适应性和智能化的场景下,UFO² 代表了下一次技术飞跃。
- 与新兴 AI 智能体(OpenAI Operator)相比:Operator 等方案展现了 LLM 在理解自然语言和界面方面的强大通用性,但其纯视觉方式在可靠性、执行速度和用户体验(干扰问题)上存在明显短板。UFO² 通过深度操作系统集成,在可靠性和效率上取得了实质性突破,但其代价是牺牲了跨平台性。
总结而言,UFO² 在 Windows 平台上为自动化带来了全新的系统级解决方案,在效率、可靠性和用户体验方面设立了新标杆。然而,它的平台依赖性和初建生态也是不容忽视的因素。选择与否,取决于用户的具体平台环境、任务复杂度以及对稳定性与灵活性的权衡。
五、项目资源与获取方式
UFO² 是一个开源项目,开发者可以自由访问、使用和贡献代码。
- GitHub 开源仓库:https://github.com/microsoft/UFO
微软通过开源 UFO²,旨在与全球开发者社区共同推动桌面自动化技术的下一次革命。对于企业和开发者来说,现在正是探索和融入这一 “AgentOS” 新时代的绝佳时机。
更多推荐
所有评论(0)