基于大模型的AI Agent是一种借助大模型来进行任务理解、规划并自动化执行的软件实体。今天来认识一种特殊能力的智能体类型及其最新进展: GUI Agent (用户界面智能体,这里的GUI泛指PC、Web与移动APP的操作界面)。

01

为什么会需要GUI Agent

GUI是人机交互的基础,它从根本上改变了人类与计算机的交互范式,也使得非技术用户也能高效的操作计算机。但在实际工作中,这还远远不够:

  • 易用的图形界面往往会牺牲操作效率。 一些日常工作流程需要在多个应用间切换并重复,这些复杂或重复性任务的效率仍然不够高。如:

“在Excel中整理数据后导入PowerPoint,并通过协作工具发送”

“从财务软件中读取数据,并到税务网站进行纳税申报”

“搜索网络最新热点,创作文章,并发布到多个社媒平台”

  • 复杂的应用生态提高了操作复杂性。 随着数字化的普及,各种业务应用(如CRM、ERP、Office工具)层出不穷,用户需要掌握越来越多的工具界面。对很多用户来说,操作的复杂性是一个显著的痛点。
  • 现有的UI自动化解决方案面临挑战。 早期的UI自动化解决方案通常是基于规则与脚本来实现,比如RPA,这类解决方案面向流程固定与规则明确的重复性任务,但在多样与动态的UI场景中,则缺乏足够的灵活适应能力。
  • 基于API的AI Agent不具有普遍的通用性。 尽管大模型给AI Agent带来具有想象力的应用空间,但基于API的工具智能体并不具有通用性,你需要根据场景来使用不同的API。相对来所, 图形界面则提供了一种应用交互的更通用便捷的机制,且不具有侵入性:应用无需提供特别的API。

因此,需要一种能够实现自动化UI交互的Agent,帮助完成复杂任务,以大幅提升效率。

02

什么是GUI Agent

GUI Agent是一种基于多模态视觉模型驱动的人工智能系统,能够自动推理并执行UI交互,模拟人类用户的操作,如点击、输入、拖拽、读取界面信息等,以完成人类要求的工作任务。 其核心功能是:

  • 自然语言交互 :通过输入的自然语言请求理解任务目标。
  • 多模态感知与推理 :分析界面截图、UI元素等多模态信息并推理行动。
  • 任务自动化 :通过应用UI执行行动,如打开应用、批量编辑、数据处理。任务的执行需要借助计算机操作工具,如Selenium、AutoIt等。

以下是一个高层的概念场景:

来自https://arxiv.org/pdf/2411.18279

该场景解释如下:

1. 用户请求(User Request)

用户以自然语言的形式向GUI智能体提出请求,例如:

“从Word文档中提取内容,创建一个PowerPoint幻灯片,然后通过Teams发送。”

这是整个工作流程的起点,用户只需提出需求,而不需要手动操作多个应用。

2. GUI智能体(GUI Agent)

GUI Agent是核心的执行者,负责解析用户请求、推理、并协调多应用之间的任务,并自动打开不同的应用程序来执行:

  1. 从Word文档中提取信息
  2. 从“照片”应用中获取、分析与提取图片
  3. 打开Web浏览器访问网页并总结内容
  4. 打开PDF阅读器读取文档、OCR识别、提取文字或图形
  5. 打开PowerPoint,将提取的内容创建成PowerPoint
  6. 打开Teams软件,将创建的PPT发送给指定个人与团队

整个任务全部由GUI Agent自动“观察”、“思考”与“执行”,无需人类参与。

03

GUI Agent的总体架构

下图给出一个基于大模型的GUI Agent的总体架构:

 来自https://arxiv.org/pdf/2411.18279

1. Request(用户请求)

用户通过输入的形式向GUI Agent提出任务请求。

2. Prompt Engineering(提示工程)

将用户的请求转化为可以被LLM理解的输入格式。包括Instruction(指令)与Examples(示例,提供多个示例以引导模型理解任务)等部分。

3. Perception(感知)

通过分析UI环境的状态,提取所需的环境信息。包括Screenshots(截图,当前界面的视觉快照),Widget Tree(组件树,界面结构的层次表示),UI Element Properties(UI元素属性,包括每个元素的类型、标题、位置)等。

4. Model Inference(模型推理)

大模型使用上述拼接的输入(包含任务描述、环境信息等)进行推理,生成一系列具体的操作计划(Action Plan)。

5. Memory(记忆模块)

用来记录智能体的历史步骤和状态,用于后续推理和操作,以避免重复执行任务,确保步骤连续性与相关性。

6. Action Execution(动作执行)

根据推理的操作计划执行动作,通常需要调用必要的计算机工具来完成,比如打开应用、输入文字、模拟鼠键操作等。

7. Operating Environment(运行环境)

GUI Agent操作的目标环境,通常是一个真实的或模拟的图形用户界面。包括普通GUI、Web UI、移动APP UI等。

04

GUI Agent的最新发展及推荐项目

最近两年来,随着大模型的兴起,GUI Agent也不断有新的工具与平台推出,下图展示其中一些重要项目:

这里推荐几个可以研究的项目:

  • 腾讯AppAgent

基于大模型的多模态智能体框架,能够模仿人类在手机上的点击和滑动手势,操作各种智能手机应用程序.

  • 智谱AutoGLM

推出的跨移动端、Web、PC的自主UI智能体,适配多款应用软件,提供自然语言控制常见软件操作的功能,而无需定制工作流。

  • 微软OmniParser

OmniParser 是微软推出的一个通用的屏幕解析工具。旨在UI截图解释为结构化格式,从而提高GUI Agent的性能,它结合了可交互区域检测模型、图标描述模型和 OCR 模块等功能。

  • Athropic的Compute Use

Anthropic 在最新推出的 Claude 3.5 Sonnet 模型中的提供了 “computer use” 的API功能,它可以 使 AI 能够像人类一样操作电脑,通过观看屏幕截图,实现移动光标、点击按钮、使用虚拟键盘输入文本等操作。具体可参考Github Demo:

https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

05

GUI Agent与RPA(Robotic Process Automatic)

最后,我们来比较GUI Agent与传统RPA的差异:

GUI Agent 通过引入强大的语言模型和多模态视觉能力,显著提升了UI自动化任务的智能化程度和灵活性,是未来人机协作的重要趋势之一。当然,目前的GUI Agent在完成任务的能力上与人类还有较大差距,根据Anthropic的标准测试结果,目前GUI Agent的能力还只能达到人类的20%左右

参考:https://daily.hstong.com/news/detail/10251207193290529

手机Agent,移动交互范式的跃迁。自触控屏幕开启移动互联网黄金时代以来,App被设计为一个个独立的孤岛,用户通过点击图标进入特定的应用环境,依靠视觉和手动点击来完成任务。随着应用数量的增长和功能的堆叠,用户在不同App间切换、寻找功能入口、手动搬运数据的成本显著上升。随着大模型的突破性进展,移动交互范式正处于跃迁的前夜:从GUI交互向Agentic交互演进。用户只需通过自然语言表达想做什么,手机Agent便负责将意图转化为具体的执行步骤并交付结果。如何在碎片化的移动生态中让AI跨越应用围墙执行任务,业界目前有两条不同的技术路线:

API范式:建立标准化的语义接口,App开发者主动适配并暴露相应功能。Agent通过结构化的API调用来指挥App执行任务,以苹果的Apple Intelligence及其App Intents框架为典型代表。

GUI范式:利用多模态模型看懂屏幕上的UI元素,利用系统辅助服务模拟手指的点击与滑动。这一路线不依赖开发者的配合,试图以通用的视觉能力“暴力”打通所有应用。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一路线的先锋。

核心差异对比,API Agent与GUI Agent各有千秋。对比了两种范式的技术路线差异,GUI Agent的核心优势在于通用性高,在可靠性、性能、隐私风险角度则是API Agent更胜一筹。1)通用性: GUI Agent的通用性显著更高,这是核心优势,不需要App 开发者进行适配。理论上只要是人类能够使用的 App,GUI-Agent 都能使用。解决了应用覆盖率的问题,新功能或未暴露功能的适配度也更高。2)可靠性;GUI Agent的可靠性仍然较低。原因包括模型对复杂界面的识别能力还达不到百分百;需要多步骤模拟用户操作,整体任务失败率更高;UI 改版时容易失效。3)性能:API Agent 可以一次调用完成复杂任务,后端直接驱动执行效率高。GUI Agent性能较低,完成简单任务可能需要多次截图分析、视觉推理等复杂计算,算力消耗更大。截图上传到云端模型时,数据量通常高于API传输参数,延迟也更高。4)隐私风险:API-Agent 的应用端后台可进行精细的数据和权限管理,权限边界清晰。GUI-Agent 的隐私风险较高。它需要读取屏幕内容,容易暴露聊天记录、密码、验证码等敏感信息。除了技术问题,商业阻力上我们认为GUI Agent不经过授权,更容易受到应用厂商的抵触。

商业形态演变:三方博弈与生态重构。手机Agent的兴起意味着移动互联网流量的重新洗牌,手机厂商、大模型厂商和应用厂商三方势力将展开复杂的博弈。手机厂商有望从硬件售卖进一步获取流量入口的价值,OS成为了用户意图的第一接收者。类似于搜索广告可能演变成一种新的竞价模式。大模型厂商的愿景是打造一个全能的App(如ChatGPT、豆包)。用户在这个App里通过对话完成所有需求。把将其他App变成自己的后端数据库和工具。大模型厂商会积极寻求与二线手机厂商合作。字节跳动与中兴的合作就是典型案例。应用厂商,一方面可能与手机/模型厂商合作,开放部分能力接口;另一方面,为保护自身利益,也可能拒绝或限制Agent的接入。Agent的授权边界是需要进一步划分的法律问题。App自身也在Agent化,例如微信最终会推出一个AI智能体,淘宝也在尝试通过“问问”等功能在App内实现自然语言导购。我们认为手机Agent的发展不会是API或GUI的单选题,对于高价值、涉及敏感数据的操作(如支付、通讯、核心业务流),API Agent有更高的准确度和隐私保护。对于只读、信息查询类的需求,以及API尚未覆盖的应用,GUI Agent通过视觉理解的方式运行可以更灵活通用。为了解决延迟和隐私问题,未来的手机处理器预计还将进一步优化视觉模型的推理能力,使GUI识别和决策在端侧完成,不再上传云端。

GUI Agent:字节跳动、谷歌、阿里巴巴、中兴通讯。

API Agent:腾讯控股、阿里巴巴、谷歌算力:寒武纪、海光信息、东阳光、神州数码、新易盛、中际旭创、中芯国际、华虹半导体、胜宏科技、品高股份、鸿腾精密、有方科技、协创数据、沪电股份、兴森科技、中科曙光、浪潮信息、东山精密、云天励飞、伟仕佳杰、宏景科技、中芯国际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文化、青云、大位科技、玉柴国际、亿田智能、弘信电子、圣阳股份、润泽科技、润建股份、深桑达、优刻得、云从科技、太极股份、数据港、首都在线。

Agent:谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶国际、拓尔思、合合信息、税友股份、新致软件、金桥信息、快手、美图公司、鼎捷数智、慧辰股份(维权)、嘉和美康、海天瑞声、泛微网络(维权)、朗新集团、润达医疗、壹网壹创、万兴科技、用友网络、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得信息、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石网络、迪安诊断、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、新大陆、新开普等。

自动驾驶:江淮汽车、赛力斯、小鹏汽车、理想汽车、禾赛、地平线、世运电路等。

军工AI:拓尔思、能科科技、普天科技、品高股份、海格通信、中科星图等。

风险提示:技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。

一、手机Agent,移动交互范式的跃迁

自触控屏幕开启移动互联网黄金时代以来,图形用户界面(GUI)一直是人机交互的绝对主导。在这一范式下,App被设计为一个个独立的孤岛,用户通过点击图标进入特定的应用环境,依靠视觉和手动点击来完成任务。这种以应用为中心的交互模式随着应用数量的增长和功能的堆叠,用户在不同App间切换、寻找功能入口、手动搬运数据的成本显著上升。随着大模型的突破性进展,移动交互范式正处于跃迁的前夜:从GUI交互向Agentic交互演进。用户只需通过自然语言表达想做什么,手机Agent便负责将意图转化为具体的执行步骤并交付结果。

如何在封闭且碎片化的移动操作系统中,让AI跨越应用围墙执行任务?业界逐渐分化出两条不同的技术路线:

API范式:建立标准化的语义接口。操作系统或平台厂商定义一套通用的意图接口(如“订票”、“发送消息”),App开发者主动适配并暴露相应功能。Agent通过结构化的API调用来指挥App执行任务。这一路线以苹果的Apple Intelligence及其App Intents框架为典型代表,强调生态的有序整合与隐私安全。

GUI范式:模拟人类的感知与操作。利用多模态模型看懂屏幕上的UI元素,利用系统辅助服务模拟手指的点击与滑动。这一路线不依赖开发者的配合,试图以通用的视觉能力“暴力”打通所有应用。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一路线的先锋。

API范式剖析:构建标准化的语义桥梁

苹果等厂商试图在应用之上构建一层“语义互联网”,将App内的功能原子化,供AI调遣,这需要应用开发者配合接入。

苹果生态的Apple Intelligence与App Intents架构

苹果推出的Apple Intelligence其核心并非仅仅是一个更聪明的Siri,而是一套深度的系统级集成框架——App Intents(应用意图)。为了让 Siri 更好地理解开发者的应用并实现更流畅的对话式交互,开发者需要选择与应用功能相匹配的域和模式,开发者通过使应用意图、应用实体或应用枚举符合模式,确保 Apple Intelligence 能够理解应用的操作和内容。

API范式的挑战在于不同开发者对同一个功能的定义可能千差万别。为了解决这个问题,苹果提供了多个助手架构(Assistant Schema),每个架构都对应不同的内容领域(例如浏览器、文档阅读器、文件管理等)。这些架构帮助 Siri 根据内容的类型提供定制化的响应。助手架构可以理解为一组标准化的“模板”,Apple 设计这些模板是为了帮助 Siri 识别应用的具体功能。比如开发者的应用是图片管理类的,那么使用photos.openAsset这样的架构,可以让Siri理解要展示一张照片。

谷歌安卓生态的API尝试:

今年10月谷歌在安卓开发者博客表示,开发者可以利用新的Prompt API构建自己的自定义生成式AI功能。今年五月的I/O大会上,谷歌推出了基于Gemini Nano模型的设备生成式人工智能API,通过简单的API简化了摘要、校对和图片描述等任务,使常见任务变得更简单。

GUI范式剖析:视觉大模型驱动的模拟操作

GUI范式是不寻求App开发者的配合,而是通过模拟人类的视觉和触觉来操作手机。

GUI Agent首先需要“理解”屏幕。这主要依赖于大模型的多模态理解能力,这方面能力上领先模型厂商不断突破,近期谷歌发布的Gemini 3 Pro的多模态理解能力就大幅进步: 模型能够处理和理解文本、图像、视频、音频乃至代码等多种模态的数据,并在这些复杂数据之间进行推理,达到了前所未有的细致程度。Gemini 3 Pro在Screen UnderStanding任务方面表现尤其出色,在ScreenShot-Pro评测基准得分72.7%,大幅领先Claude Sonnet 4.5(36.2%)和GPT 5.1(3.5%)。

决策与规划:推理链与任务拆解以及执行过程中的动态规划:理解屏幕后,Agent需要规划行动。例如面对“帮我点一杯拿铁”这样的指令,我们认为Agent可能会将其拆解为子任务序列:打开App -> 搜索咖啡 -> 选择规格-> 下单,Agent每执行一步,都要动态观察当前屏幕状态决定下一步行动,例如点击下单后,可能弹出一个优惠券,也可能提示售罄。案例:智谱AutoGLM

2025年8月20日,北京AI公司“智谱 AI”宣布,去年发布的全球首个可自主操作手机的智能体产品AutoGLM再次升级,推出AutoGLM2.0,并迈出更具历史意义的一步——首次面向公众全面开放,无需邀请码即可使用。此次发布的AutoGLM2.0被定位为“执行型助手”。 在生活场景中,用户一句话即可让AutoGLM操作抖音、小红书、美团、京东等40余款应用,完成点餐、订票、查房、预约等服务。在办公场景中,它也能跨应用执行完整流程,从检索资料到撰写文稿,再到生成视频、PPT或播客,并直接完成发布。

字节跳动豆包手机助手

2025年12月1日,字节发布豆包手机助手预览版。这是一个面向手机厂商的系统级服务,它将豆包大模型深度融入操作系统,让用户只需动嘴(或动一下手指),就能指挥手机去执行那些原本需要点击几十次屏幕的繁琐操作。功能包括跨平台比价点外卖、搜小红书做攻略等。豆包手机助手的主力研发团队,是字节负责 AI 硬件的 Ocean,它隶属于字节 AI 产品大部门 Flow,主要成员来自字节多年来先后收购的一些硬件产品团队,如锤子手机、VR 头显 PICO、智能耳机 Ola Dance 等,以及近年加入字节的手机、硬件从业者。这款豆包与中兴合作的手机已在豆包手机助手官网及中兴商城上架,售价 3499 元。这款手机只是豆包手机助手的 “打样”。字节正和多家手机厂商谈合作

在与中兴努比亚(Nubia Z60 Ultra)的合作中,豆包助手被整合进系统底层。通过长按侧边键唤醒,豆包可以直接获取系统底层的屏幕缓冲区数据,无需通过Accessibility服务的截屏接口,大大降低了延迟。

豆包手机助手引发了被操作App的抗拒。据上观报道,12月3日,多位网友在社交平台上反馈,搭载豆包助手的努比亚M153工程机登录微信时,页面弹出“登录环境异常,需更换设备重新登录”的警告。部分用户更换账号后虽能临时登录,但传输聊天记录时再次被强制下线。更关键的是,若通过豆包助手操作微信功能(如发送消息),系统直接提示“任务失败”,并标注“实验室功能暂不支持微信操作”。此外,12月3日上午,还有部分使用“豆包AI手机”的用户反馈,因使用豆包手机助手操作微信,微信账号被封禁了。中午12时左右,被封禁的微信陆续被解封,可以正常登陆,但无法使用豆包助手进行微信上的自动化操作。另据网友在社交媒体上反馈,自己在使用豆包AI手机助手的时候遭到了农行、建行等APP内的强弹窗提醒,要求关闭豆包AI手机助手后再进行使用。

二、核心差异对比,两种范式各有千秋

根据以上对API Agent和GUI Agent技术路线的分析,我们对比了两种范式的差异,GUI Agent的核心优势在于通用性高,在可靠性、性能、隐私风险角度则是API Agent更胜一筹。除了技术问题,商业阻力上我们认为GUI Agent更容易受到应用厂商的抵触。

三、商业形态演变:三方博弈与生态重构

手机Agent的兴起意味着移动互联网流量的重新洗牌,手机厂商、大模型厂商和应用厂商三方势力将展开复杂的博弈。手机厂商:从硬件售卖到获取流量入口的价值

在App时代,用户打开手机直接点击App,OS只是一层启动器。在Agent时代,用户直接告诉OS“我要打车”,OS决定唤起哪个App。OS成为了意图的第一接收者。类似于搜索广告。当用户表达订酒店意图时,携程、飞猪、美团谁排在第一位?这可能演变成一种新的竞价模式。

大模型厂商:跨越OS的超级助理App

大模型等厂商的愿景是打造一个全能的App(如ChatGPT、豆包)。用户在这个App里通过对话完成所有需求。可以理解为想把将其他App变成自己的后端数据库和工具。

合纵连横:为了获得系统级权限,大模型厂商积极寻求与二线手机厂商合作。字节跳动与中兴的合作就是典型案例。应用厂商:数据护城河的保卫战

对于App厂商,一方面可能与手机/模型厂商合作,开放部分能力接口;另一方面,为保护自身利益,也可能拒绝或限制Agent的接入。

Agent的授权边界上

对外经济贸易大学法学院教授、数字经济与法律创新研究中心主任许可介绍了发生在美国的Perplexity案。该案中,被告Perplexity是一家AI公司,其通过亚马逊付费会员账号帮助用户购物,被亚马逊指控违法并给自身造成商业损失。Perplexity则主张自己是“用户授权的代理人”,认为亚马逊的指控是一种霸凌。许可指出,该案核心争议反映了一种法律困境:AI助手声称是用户权利延伸,但平台认为其行为破坏了商业生态和安全秩序。“在很多情况下,用户权益和平台权益都需要考虑,需要双重授权甚至多重授权。”许可说。

App自身也在Agent化。在腾讯2025年第三季度财报电话会上,腾讯总裁刘炽平披露微信AI化战略,明确表示“微信最终会推出一个AI智能体”,让用户在生态内即可完成从需求理解到服务交付的全流程。淘宝也在尝试通过“问问”等功能,在App内实现自然语言导购。

展望未来,我们认为手机Agent的发展不会是API或GUI的单选题,而是两者的融合。对于高价值、涉及敏感数据的操作(如支付、通讯、核心业务流),APIAgent有更高的准确度和隐私保护。对于只读、信息查询类的需求,以及API尚未覆盖的应用,GUI Agent通过视觉理解的方式运行可以更灵活通用。为了解决延迟和隐私问题,未来的手机处理器预计还将进一步优化视觉模型的推理能力,使GUI识别和决策在端侧完成,不再上传云端。

四、投资建议

建议关注:

GUI Agent:字节跳动、谷歌、阿里巴巴、中兴通讯。

API Agent:腾讯控股、阿里巴巴、谷歌。算力:寒武纪、海光信息、东阳光、神州数码、新易盛、中际旭创、中芯国际、华虹半导体、胜宏科技、品高股份、鸿腾精密、有方科技、协创数据、沪电股份、兴森科技、中科曙光、浪潮信息、东山精密、云天励飞、伟仕佳杰、宏景科技、中芯国际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文化、青云、大位科技、玉柴国际、亿田智能、弘信电子、圣阳股份、润泽科技、润建股份、深桑达、优刻得、云从科技、太极股份、数据港、首都在线。

Agent:谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶国际、拓尔思、合合信息、税友股份、新致软件、金桥信息、快手、美图公司、鼎捷数智、慧辰股份、嘉和美康、海天瑞声、泛微网络、朗新集团、润达医疗、壹网壹创、万兴科技、用友网络、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得信息、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石网络、迪安诊断、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、新大陆、新开普等。

自动驾驶:江淮汽车、赛力斯、小鹏汽车、理想汽车、禾赛、地平线、世运电路等。

军工AI:拓尔思、能科科技、普天科技、品高股份、海格通信、中科星图等。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐