AI范式：API AGENT or GUI AGENT

HideInTime

775人浏览 · 2026-02-26 10:55:45

HideInTime · 2026-02-26 10:55:45 发布

基于大模型的AI Agent是一种借助大模型来进行任务理解、规划并自动化执行的软件实体。今天来认识一种特殊能力的智能体类型及其最新进展： GUI Agent （用户界面智能体，这里的GUI泛指PC、Web与移动APP的操作界面）。

为什么会需要GUI Agent

GUI是人机交互的基础，它从根本上改变了人类与计算机的交互范式，也使得非技术用户也能高效的操作计算机。但在实际工作中，这还远远不够：

易用的图形界面往往会牺牲操作效率。 一些日常工作流程需要在多个应用间切换并重复，这些复杂或重复性任务的效率仍然不够高。如：

“在Excel中整理数据后导入PowerPoint，并通过协作工具发送”

“从财务软件中读取数据，并到税务网站进行纳税申报”

“搜索网络最新热点，创作文章，并发布到多个社媒平台”

复杂的应用生态提高了操作复杂性。 随着数字化的普及，各种业务应用（如CRM、ERP、Office工具）层出不穷，用户需要掌握越来越多的工具界面。对很多用户来说，操作的复杂性是一个显著的痛点。
现有的UI自动化解决方案面临挑战。 早期的UI自动化解决方案通常是基于规则与脚本来实现，比如RPA，这类解决方案面向流程固定与规则明确的重复性任务，但在多样与动态的UI场景中，则缺乏足够的灵活适应能力。
基于API的AI Agent不具有普遍的通用性。 尽管大模型给AI Agent带来具有想象力的应用空间，但基于API的工具智能体并不具有通用性，你需要根据场景来使用不同的API。相对来所， 图形界面则提供了一种应用交互的更通用便捷的机制，且不具有侵入性：应用无需提供特别的API。

因此，需要一种能够实现自动化UI交互的Agent，帮助完成复杂任务，以大幅提升效率。

什么是GUI Agent

GUI Agent是一种基于多模态视觉模型驱动的人工智能系统，能够自动推理并执行UI交互，模拟人类用户的操作，如点击、输入、拖拽、读取界面信息等，以完成人类要求的工作任务。其核心功能是：

自然语言交互 ：通过输入的自然语言请求理解任务目标。
多模态感知与推理 ：分析界面截图、UI元素等多模态信息并推理行动。
任务自动化 ：通过应用UI执行行动，如打开应用、批量编辑、数据处理。任务的执行需要借助计算机操作工具，如Selenium、AutoIt等。

以下是一个高层的概念场景：

来自https://arxiv.org/pdf/2411.18279

该场景解释如下：

1. 用户请求（User Request）

用户以自然语言的形式向GUI智能体提出请求，例如：

“从Word文档中提取内容，创建一个PowerPoint幻灯片，然后通过Teams发送。”

这是整个工作流程的起点，用户只需提出需求，而不需要手动操作多个应用。

2. GUI智能体（GUI Agent）

GUI Agent是核心的执行者，负责解析用户请求、推理、并协调多应用之间的任务，并自动打开不同的应用程序来执行：

从Word文档中提取信息
从“照片”应用中获取、分析与提取图片
打开Web浏览器访问网页并总结内容
打开PDF阅读器读取文档、OCR识别、提取文字或图形
打开PowerPoint，将提取的内容创建成PowerPoint
打开Teams软件，将创建的PPT发送给指定个人与团队

整个任务全部由GUI Agent自动“观察”、“思考”与“执行”，无需人类参与。

GUI Agent的总体架构

下图给出一个基于大模型的GUI Agent的总体架构：

来自https://arxiv.org/pdf/2411.18279

1. Request（用户请求）

用户通过输入的形式向GUI Agent提出任务请求。

2. Prompt Engineering（提示工程）

将用户的请求转化为可以被LLM理解的输入格式。包括Instruction（指令）与Examples（示例，提供多个示例以引导模型理解任务）等部分。

3. Perception（感知）

通过分析UI环境的状态，提取所需的环境信息。包括Screenshots（截图，当前界面的视觉快照），Widget Tree（组件树，界面结构的层次表示），UI Element Properties（UI元素属性，包括每个元素的类型、标题、位置）等。

4. Model Inference（模型推理）

大模型使用上述拼接的输入（包含任务描述、环境信息等）进行推理，生成一系列具体的操作计划（Action Plan）。

5. Memory（记忆模块）

用来记录智能体的历史步骤和状态，用于后续推理和操作，以避免重复执行任务，确保步骤连续性与相关性。

6. Action Execution（动作执行）

根据推理的操作计划执行动作，通常需要调用必要的计算机工具来完成，比如打开应用、输入文字、模拟鼠键操作等。

7. Operating Environment（运行环境）

GUI Agent操作的目标环境，通常是一个真实的或模拟的图形用户界面。包括普通GUI、Web UI、移动APP UI等。

GUI Agent的最新发展及推荐项目

最近两年来，随着大模型的兴起，GUI Agent也不断有新的工具与平台推出，下图展示其中一些重要项目：

这里推荐几个可以研究的项目：

腾讯AppAgent

基于大模型的多模态智能体框架，能够模仿人类在手机上的点击和滑动手势，操作各种智能手机应用程序.

智谱AutoGLM

推出的跨移动端、Web、PC的自主UI智能体，适配多款应用软件，提供自然语言控制常见软件操作的功能，而无需定制工作流。

微软OmniParser

OmniParser 是微软推出的一个通用的屏幕解析工具。旨在UI截图解释为结构化格式，从而提高GUI Agent的性能，它结合了可交互区域检测模型、图标描述模型和 OCR 模块等功能。

Athropic的Compute Use

Anthropic 在最新推出的 Claude 3.5 Sonnet 模型中的提供了 “computer use” 的API功能，它可以使 AI 能够像人类一样操作电脑，通过观看屏幕截图，实现移动光标、点击按钮、使用虚拟键盘输入文本等操作。具体可参考Github Demo：

https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

GUI Agent与RPA（Robotic Process Automatic）

最后，我们来比较GUI Agent与传统RPA的差异：

GUI Agent 通过引入强大的语言模型和多模态视觉能力，显著提升了UI自动化任务的智能化程度和灵活性，是未来人机协作的重要趋势之一。当然，目前的GUI Agent在完成任务的能力上与人类还有较大差距，根据Anthropic的标准测试结果，目前GUI Agent的能力还只能达到人类的20%左右

参考：https://daily.hstong.com/news/detail/10251207193290529

手机Agent，移动交互范式的跃迁。自触控屏幕开启移动互联网黄金时代以来，App被设计为一个个独立的孤岛，用户通过点击图标进入特定的应用环境，依靠视觉和手动点击来完成任务。随着应用数量的增长和功能的堆叠，用户在不同App间切换、寻找功能入口、手动搬运数据的成本显著上升。随着大模型的突破性进展，移动交互范式正处于跃迁的前夜：从GUI交互向Agentic交互演进。用户只需通过自然语言表达想做什么，手机Agent便负责将意图转化为具体的执行步骤并交付结果。如何在碎片化的移动生态中让AI跨越应用围墙执行任务，业界目前有两条不同的技术路线：

API范式：建立标准化的语义接口，App开发者主动适配并暴露相应功能。Agent通过结构化的API调用来指挥App执行任务，以苹果的Apple Intelligence及其App Intents框架为典型代表。

GUI范式：利用多模态模型看懂屏幕上的UI元素，利用系统辅助服务模拟手指的点击与滑动。这一路线不依赖开发者的配合，试图以通用的视觉能力“暴力”打通所有应用。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一路线的先锋。

核心差异对比，API Agent与GUI Agent各有千秋。对比了两种范式的技术路线差异，GUI Agent的核心优势在于通用性高，在可靠性、性能、隐私风险角度则是API Agent更胜一筹。1)通用性： GUI Agent的通用性显著更高，这是核心优势，不需要App 开发者进行适配。理论上只要是人类能够使用的 App，GUI-Agent 都能使用。解决了应用覆盖率的问题，新功能或未暴露功能的适配度也更高。2)可靠性；GUI Agent的可靠性仍然较低。原因包括模型对复杂界面的识别能力还达不到百分百；需要多步骤模拟用户操作，整体任务失败率更高；UI 改版时容易失效。3）性能：API Agent 可以一次调用完成复杂任务，后端直接驱动执行效率高。GUI Agent性能较低，完成简单任务可能需要多次截图分析、视觉推理等复杂计算，算力消耗更大。截图上传到云端模型时，数据量通常高于API传输参数，延迟也更高。4）隐私风险：API-Agent 的应用端后台可进行精细的数据和权限管理，权限边界清晰。GUI-Agent 的隐私风险较高。它需要读取屏幕内容，容易暴露聊天记录、密码、验证码等敏感信息。除了技术问题，商业阻力上我们认为GUI Agent不经过授权，更容易受到应用厂商的抵触。

商业形态演变：三方博弈与生态重构。手机Agent的兴起意味着移动互联网流量的重新洗牌，手机厂商、大模型厂商和应用厂商三方势力将展开复杂的博弈。手机厂商有望从硬件售卖进一步获取流量入口的价值，OS成为了用户意图的第一接收者。类似于搜索广告可能演变成一种新的竞价模式。大模型厂商的愿景是打造一个全能的App（如ChatGPT、豆包）。用户在这个App里通过对话完成所有需求。把将其他App变成自己的后端数据库和工具。大模型厂商会积极寻求与二线手机厂商合作。字节跳动与中兴的合作就是典型案例。应用厂商，一方面可能与手机/模型厂商合作，开放部分能力接口；另一方面，为保护自身利益，也可能拒绝或限制Agent的接入。Agent的授权边界是需要进一步划分的法律问题。App自身也在Agent化，例如微信最终会推出一个AI智能体，淘宝也在尝试通过“问问”等功能在App内实现自然语言导购。我们认为手机Agent的发展不会是API或GUI的单选题，对于高价值、涉及敏感数据的操作（如支付、通讯、核心业务流），API Agent有更高的准确度和隐私保护。对于只读、信息查询类的需求，以及API尚未覆盖的应用，GUI Agent通过视觉理解的方式运行可以更灵活通用。为了解决延迟和隐私问题，未来的手机处理器预计还将进一步优化视觉模型的推理能力，使GUI识别和决策在端侧完成，不再上传云端。

GUI Agent：字节跳动、谷歌、阿里巴巴、中兴通讯。

API Agent：腾讯控股、阿里巴巴、谷歌算力：寒武纪、海光信息、东阳光、神州数码、新易盛、中际旭创、中芯国际、华虹半导体、胜宏科技、品高股份、鸿腾精密、有方科技、协创数据、沪电股份、兴森科技、中科曙光、浪潮信息、东山精密、云天励飞、伟仕佳杰、宏景科技、中芯国际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文化、青云、大位科技、玉柴国际、亿田智能、弘信电子、圣阳股份、润泽科技、润建股份、深桑达、优刻得、云从科技、太极股份、数据港、首都在线。

Agent：谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶国际、拓尔思、合合信息、税友股份、新致软件、金桥信息、快手、美图公司、鼎捷数智、慧辰股份（维权）、嘉和美康、海天瑞声、泛微网络（维权）、朗新集团、润达医疗、壹网壹创、万兴科技、用友网络、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得信息、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石网络、迪安诊断、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、新大陆、新开普等。

自动驾驶：江淮汽车、赛力斯、小鹏汽车、理想汽车、禾赛、地平线、世运电路等。

军工AI：拓尔思、能科科技、普天科技、品高股份、海格通信、中科星图等。

风险提示：技术迭代不及预期风险；经济下行超预期风险；行业竞争加剧风险。

一、手机Agent，移动交互范式的跃迁

自触控屏幕开启移动互联网黄金时代以来，图形用户界面（GUI）一直是人机交互的绝对主导。在这一范式下，App被设计为一个个独立的孤岛，用户通过点击图标进入特定的应用环境，依靠视觉和手动点击来完成任务。这种以应用为中心的交互模式随着应用数量的增长和功能的堆叠，用户在不同App间切换、寻找功能入口、手动搬运数据的成本显著上升。随着大模型的突破性进展，移动交互范式正处于跃迁的前夜：从GUI交互向Agentic交互演进。用户只需通过自然语言表达想做什么，手机Agent便负责将意图转化为具体的执行步骤并交付结果。

如何在封闭且碎片化的移动操作系统中，让AI跨越应用围墙执行任务？业界逐渐分化出两条不同的技术路线：

API范式：建立标准化的语义接口。操作系统或平台厂商定义一套通用的意图接口（如“订票”、“发送消息”），App开发者主动适配并暴露相应功能。Agent通过结构化的API调用来指挥App执行任务。这一路线以苹果的Apple Intelligence及其App Intents框架为典型代表，强调生态的有序整合与隐私安全。

GUI范式：模拟人类的感知与操作。利用多模态模型看懂屏幕上的UI元素，利用系统辅助服务模拟手指的点击与滑动。这一路线不依赖开发者的配合，试图以通用的视觉能力“暴力”打通所有应用。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一路线的先锋。

API范式剖析：构建标准化的语义桥梁

苹果等厂商试图在应用之上构建一层“语义互联网”，将App内的功能原子化，供AI调遣，这需要应用开发者配合接入。

苹果生态的Apple Intelligence与App Intents架构

苹果推出的Apple Intelligence其核心并非仅仅是一个更聪明的Siri，而是一套深度的系统级集成框架——App Intents（应用意图）。为了让 Siri 更好地理解开发者的应用并实现更流畅的对话式交互，开发者需要选择与应用功能相匹配的域和模式，开发者通过使应用意图、应用实体或应用枚举符合模式，确保 Apple Intelligence 能够理解应用的操作和内容。

API范式的挑战在于不同开发者对同一个功能的定义可能千差万别。为了解决这个问题，苹果提供了多个助手架构（Assistant Schema），每个架构都对应不同的内容领域（例如浏览器、文档阅读器、文件管理等）。这些架构帮助 Siri 根据内容的类型提供定制化的响应。助手架构可以理解为一组标准化的“模板”，Apple 设计这些模板是为了帮助 Siri 识别应用的具体功能。比如开发者的应用是图片管理类的，那么使用photos.openAsset这样的架构，可以让Siri理解要展示一张照片。

谷歌安卓生态的API尝试：

今年10月谷歌在安卓开发者博客表示，开发者可以利用新的Prompt API构建自己的自定义生成式AI功能。今年五月的I/O大会上，谷歌推出了基于Gemini Nano模型的设备生成式人工智能API，通过简单的API简化了摘要、校对和图片描述等任务，使常见任务变得更简单。

GUI范式剖析：视觉大模型驱动的模拟操作

GUI范式是不寻求App开发者的配合，而是通过模拟人类的视觉和触觉来操作手机。

GUI Agent首先需要“理解”屏幕。这主要依赖于大模型的多模态理解能力，这方面能力上领先模型厂商不断突破，近期谷歌发布的Gemini 3 Pro的多模态理解能力就大幅进步: 模型能够处理和理解文本、图像、视频、音频乃至代码等多种模态的数据，并在这些复杂数据之间进行推理，达到了前所未有的细致程度。Gemini 3 Pro在Screen UnderStanding任务方面表现尤其出色，在ScreenShot-Pro评测基准得分72.7%，大幅领先Claude Sonnet 4.5（36.2%）和GPT 5.1（3.5%）。

决策与规划：推理链与任务拆解以及执行过程中的动态规划：理解屏幕后，Agent需要规划行动。例如面对“帮我点一杯拿铁”这样的指令，我们认为Agent可能会将其拆解为子任务序列：打开App -> 搜索咖啡 -> 选择规格-> 下单，Agent每执行一步，都要动态观察当前屏幕状态决定下一步行动，例如点击下单后，可能弹出一个优惠券，也可能提示售罄。案例：智谱AutoGLM

2025年8月20日，北京AI公司“智谱 AI”宣布，去年发布的全球首个可自主操作手机的智能体产品AutoGLM再次升级，推出AutoGLM2.0，并迈出更具历史意义的一步——首次面向公众全面开放，无需邀请码即可使用。此次发布的AutoGLM2.0被定位为“执行型助手”。在生活场景中，用户一句话即可让AutoGLM操作抖音、小红书、美团、京东等40余款应用，完成点餐、订票、查房、预约等服务。在办公场景中，它也能跨应用执行完整流程，从检索资料到撰写文稿，再到生成视频、PPT或播客，并直接完成发布。

字节跳动豆包手机助手

2025年12月1日，字节发布豆包手机助手预览版。这是一个面向手机厂商的系统级服务，它将豆包大模型深度融入操作系统，让用户只需动嘴（或动一下手指），就能指挥手机去执行那些原本需要点击几十次屏幕的繁琐操作。功能包括跨平台比价点外卖、搜小红书做攻略等。豆包手机助手的主力研发团队，是字节负责 AI 硬件的 Ocean，它隶属于字节 AI 产品大部门 Flow，主要成员来自字节多年来先后收购的一些硬件产品团队，如锤子手机、VR 头显 PICO、智能耳机 Ola Dance 等，以及近年加入字节的手机、硬件从业者。这款豆包与中兴合作的手机已在豆包手机助手官网及中兴商城上架，售价 3499 元。这款手机只是豆包手机助手的 “打样”。字节正和多家手机厂商谈合作

在与中兴努比亚（Nubia Z60 Ultra）的合作中，豆包助手被整合进系统底层。通过长按侧边键唤醒，豆包可以直接获取系统底层的屏幕缓冲区数据，无需通过Accessibility服务的截屏接口，大大降低了延迟。

豆包手机助手引发了被操作App的抗拒。据上观报道，12月3日，多位网友在社交平台上反馈，搭载豆包助手的努比亚M153工程机登录微信时，页面弹出“登录环境异常，需更换设备重新登录”的警告。部分用户更换账号后虽能临时登录，但传输聊天记录时再次被强制下线。更关键的是，若通过豆包助手操作微信功能（如发送消息），系统直接提示“任务失败”，并标注“实验室功能暂不支持微信操作”。此外，12月3日上午，还有部分使用“豆包AI手机”的用户反馈，因使用豆包手机助手操作微信，微信账号被封禁了。中午12时左右，被封禁的微信陆续被解封，可以正常登陆，但无法使用豆包助手进行微信上的自动化操作。另据网友在社交媒体上反馈，自己在使用豆包AI手机助手的时候遭到了农行、建行等APP内的强弹窗提醒，要求关闭豆包AI手机助手后再进行使用。

二、核心差异对比，两种范式各有千秋

根据以上对API Agent和GUI Agent技术路线的分析，我们对比了两种范式的差异，GUI Agent的核心优势在于通用性高，在可靠性、性能、隐私风险角度则是API Agent更胜一筹。除了技术问题，商业阻力上我们认为GUI Agent更容易受到应用厂商的抵触。

三、商业形态演变：三方博弈与生态重构

手机Agent的兴起意味着移动互联网流量的重新洗牌，手机厂商、大模型厂商和应用厂商三方势力将展开复杂的博弈。手机厂商：从硬件售卖到获取流量入口的价值

在App时代，用户打开手机直接点击App，OS只是一层启动器。在Agent时代，用户直接告诉OS“我要打车”，OS决定唤起哪个App。OS成为了意图的第一接收者。类似于搜索广告。当用户表达订酒店意图时，携程、飞猪、美团谁排在第一位？这可能演变成一种新的竞价模式。

大模型厂商：跨越OS的超级助理App

大模型等厂商的愿景是打造一个全能的App（如ChatGPT、豆包）。用户在这个App里通过对话完成所有需求。可以理解为想把将其他App变成自己的后端数据库和工具。

合纵连横：为了获得系统级权限，大模型厂商积极寻求与二线手机厂商合作。字节跳动与中兴的合作就是典型案例。应用厂商：数据护城河的保卫战

对于App厂商，一方面可能与手机/模型厂商合作，开放部分能力接口；另一方面，为保护自身利益，也可能拒绝或限制Agent的接入。

Agent的授权边界上

对外经济贸易大学法学院教授、数字经济与法律创新研究中心主任许可介绍了发生在美国的Perplexity案。该案中，被告Perplexity是一家AI公司，其通过亚马逊付费会员账号帮助用户购物，被亚马逊指控违法并给自身造成商业损失。Perplexity则主张自己是“用户授权的代理人”，认为亚马逊的指控是一种霸凌。许可指出，该案核心争议反映了一种法律困境：AI助手声称是用户权利延伸，但平台认为其行为破坏了商业生态和安全秩序。“在很多情况下，用户权益和平台权益都需要考虑，需要双重授权甚至多重授权。”许可说。

App自身也在Agent化。在腾讯2025年第三季度财报电话会上，腾讯总裁刘炽平披露微信AI化战略，明确表示“微信最终会推出一个AI智能体”，让用户在生态内即可完成从需求理解到服务交付的全流程。淘宝也在尝试通过“问问”等功能，在App内实现自然语言导购。

展望未来，我们认为手机Agent的发展不会是API或GUI的单选题，而是两者的融合。对于高价值、涉及敏感数据的操作（如支付、通讯、核心业务流），APIAgent有更高的准确度和隐私保护。对于只读、信息查询类的需求，以及API尚未覆盖的应用，GUI Agent通过视觉理解的方式运行可以更灵活通用。为了解决延迟和隐私问题，未来的手机处理器预计还将进一步优化视觉模型的推理能力，使GUI识别和决策在端侧完成，不再上传云端。

四、投资建议

建议关注：

GUI Agent：字节跳动、谷歌、阿里巴巴、中兴通讯。

API Agent：腾讯控股、阿里巴巴、谷歌。算力：寒武纪、海光信息、东阳光、神州数码、新易盛、中际旭创、中芯国际、华虹半导体、胜宏科技、品高股份、鸿腾精密、有方科技、协创数据、沪电股份、兴森科技、中科曙光、浪潮信息、东山精密、云天励飞、伟仕佳杰、宏景科技、中芯国际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文化、青云、大位科技、玉柴国际、亿田智能、弘信电子、圣阳股份、润泽科技、润建股份、深桑达、优刻得、云从科技、太极股份、数据港、首都在线。

Agent：谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶国际、拓尔思、合合信息、税友股份、新致软件、金桥信息、快手、美图公司、鼎捷数智、慧辰股份、嘉和美康、海天瑞声、泛微网络、朗新集团、润达医疗、壹网壹创、万兴科技、用友网络、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得信息、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石网络、迪安诊断、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、新大陆、新开普等。

自动驾驶：江淮汽车、赛力斯、小鹏汽车、理想汽车、禾赛、地平线、世运电路等。

军工AI：拓尔思、能科科技、普天科技、品高股份、海格通信、中科星图等。