本文详细介绍了AI-Agent的概念、特点及分类。AI-Agent可被视为大模型分解后的"智能体",每个智能体都带有LLM的"基因",实现了"大"模型在"微""小"智能体中的价值。文章从工作模式和决策方式两个维度,系统分类了单Agent、多Agent、混合Agent以及简单反射型、基于模型、基于目标、基于效用、学习型等多种AI-Agent类型,并探讨了它们与LLM和RPA的区别,展现了AI-Agent作为通用人工智能(AGI)重要组成部分的发展前景。

AI-Agent就像是把大模型往更小的细节分解,分解成一个个独立的智能体,就像生物体由一个个细胞组成,细胞里包含了基因,说更细一点:每个细胞都有整个生物体的基因,都是带着全息影像智能体里。

每个基于大模型AI-Agent智能体都带有所采用LLM大模型的“基因”,就像乐高积木一样,每个智能体给赋予了结构简单,界限清晰,功能范围明确的细胞或者基因。“大”模型发力在微“小”的智能体,“大”的一定要在“小”中实现其真正价值,体现了一种“反者道之动”的哲学味道。–EBATOM

随着以GPT大模型为代表的人工智能(AI)2.0时代的技术发展,从深度学习、机器学习、自然语言处理到计算机视觉,AI技术不断突破限制,为众多行业带来了革命性的变革,从提供客户服务的聊天机器人到为医疗保健和制造业创建的复杂机器人。

01 AI智能体概述

AI智能体可以被定义为一个强大的通用问题求解器。

02 什么是AI Agent

AI Agent 并不是一个新兴的概念,早在多年前就已在人工智能领域有了研究。在《人工智能:现代方法(第4版)》一书中,作者表示:

任何通过传感器(sensor)感知环境(environment)并通过执行器(actuator)作用于该环境的事物都可以被视为智能体(agent)。

从这个概念上而言,围棋机器人AlphaGo、苹果手机助手Siri、天猫精灵智能音箱等,都可以理解是AI Agent。

不过,我想要探讨的是一种更先进的、面向未来的人工智能代理——AI Agent旨在理解、分析和响应人类输入,像人类一样执行任务、做出决策并与环境互动。它们可以是遵循预定义规则的简单系统,也可以是根据经验学习和适应的复杂、自主的实体;可以是基于软件的实体,也可以是物理实体。它们被用于各种领域,包括机器人、游戏、虚拟助理、自动驾驶汽车等。这些智能体可以是反应性的(直接对刺激做出反应)、深思熟虑的(计划和决策),甚至具有学习能力(根据数据和经验调整它们的行为)。

相比起来,智能汽车的自动驾驶(L5级别)、(未来更完美形态的)特斯拉人型机器人Optimus这样的智能应用,会更符合我所说的AI Agent的终极形态。

AI Agent的出现标志着我们向通用人工智能(AGI)迈出了一步。在AGI中,机器将在不同领域模仿人类般的灵活性和无与伦比的熟练度(但是效率上可能远高于人类)。

03 AI Agent和LLM、RPA的区别

大语言模型和AI Agent 的区别在于 AI Agent 可以独立思考并做出行动,和 RPA 的区别在于它能够处理未知环境信息:

与植根于固定参数和训练数据的标准自动化过程相比,AI Agent在不确定的环境中蓬勃发展,在未知的领域中自主导航,并处理大量新数据。它们是智能自动化的新面孔。但AI Agent又不仅仅是智能的——它擅长使用电脑,无论是直接浏览互联网、管理应用程序,还是进行金融交易和控制设备,其功能广泛而通用。

但是LLM/LMM的突破和发展,为AI Agent的实现铺平了道路,这也是为什么ChatGPT发布后关于AI Agent的讨论愈发火热。以大模型为驱动的人工智能代理具有以下优势:

  • 语言交互:它们固有的理解和生成语言的能力确保了无缝的用户交互。
  • 决策能力:大型语言模型具有推理和决策的能力,使其擅长解决复杂问题。
  • 灵活的适应性:代理的适应性确保它们可以针对不同的应用进行调整。
  • 协作交互:代理可以与人类或其他代理协作交互,为多方面交互铺平道路。

GPTs本身也可以是智能体,因为它支持“Action”。例如直接浏览网页(使用webpilot插件):

跨软件发送消息:

自动整理信息(例如根据在线客服对话提取出商机线索入库):

AI Agent 可以类比为自动驾驶的 L4 阶段,距离真正实现仍有差距(或者说,目前的表现还不理想):

04 AI Agent的类型

从工作模式来看,AI智能体可以分为单Agent、多Agent、混合Agent(人机交互Agent)三种类型:

  • 单Agent:这种代理侧重于执行单一任务或一系列相关任务,且不需要与其他智能体进行交互。单个代理可以根据任务执行不同的操作,如需求分析、项目读取、代码生成等。例如手机上的Siri或GoogleAssistant,你可以要求它设置闹钟、查询天气、播放音乐等,每个请求都是由单个AI代理独立处理的,它根据你的命令执行特定的任务。
  • 多Agent:这种模式侧重于智能体之间的互动(合作或对抗)和信息共享,多个智能体协同工作,相互交流信息,共同完成更复杂的任务或目标。

多agent应用场景在软件行业开发、智能生产、企业管理等高度协同的工作中非常有帮助。

在这里,给大家分享一个我在去年12月份所体验的一个基于LLM的多智能体框架——MetaGPT来帮助理解,详见下方的视频。在它的基础版本中,MetaGPT内部包括产品经理 / 架构师 / 项目经理 / 工程师等多个Agents,用户只需要输入一句话的需求,它就会自己思考并最终输出用户故事、竞品分析、需求文档、 数据结构 、APIs 、代码文件等(尽管还不完美,但已经让我震撼)。

  • 混合Agent:这种模式中,人工智能系统和人类共同参与决策过程,交互合作完成任务,强调的是人机协作的重要性和互补性。智慧医疗、智慧城市等专业领域可以使用混合智能体来完成复杂的专业工作。以智慧医疗为例,医生和AI系统共同进行病情诊断,AI系统可以快速分析病人的医疗记录、影像资料等,提供初步的诊断建议;而医生则可以基于AI的分析结果和自己的专业知识和经验,做出最终的诊断决定。

从决策制定和行为方式的角度看,AI智能体可以分为以下类型:

  • 简单反射型Agent:基于“如果-那么”规则直接响应当前的环境状态,不存储任何历史数据或状态。它们的设计简单,反应迅速,但适用范围有限。

例如一个简单的客户线索收集机器人,在抖音有新增意向客户(例如咨询或留资)时,就触发企业微信的通知消息到群里。这类代理适合处理一些规则明确、不需要深度逻辑或历史上下文理解的任务。

  • 基于模型的反射型Agent:拥有环境的内部模型,能够基于对环境的理解和过去的经验做出更复杂的决策。它能够适应环境变化,处理更复杂的任务。

例如智能家居系统中的温度控制器,它不仅能够根据当前的室温调节空调,还能学习用户的偏好,并预测何时需要提前调整温度。

  • 基于目标的Agent:这类决策从根本上不同于前面描述的条件-动作规则,因为它涉及对未来的考虑,包括“如果我这样做会发生什么?”和“这会让我快乐吗?因为了解环境的现状并不总是足以决定做什么。例如,在一个路口,出租车可以左转、右转或直行。正确的决定取决于出租车要去哪里。换句话说,除了当前状态的描述之外,智能体还需要某种描述理想情况的目标信息,例如设定特定的目的地。

有时,基于目标的动作选择很直接,例如,单个动作能够立刻实现目标的情况。有时会更棘手,例如,智能体为了找到实现目标的方法而不得不考虑很长的复杂序列。路线规划就是很好的例子,它根据目的地、出发地以及路径策略设置,为用户量身设计出行方案,同时可结合实时交通,帮助用户绕开拥堵路段。只要将目的地指定为目标,就可以很容易地更改基于目标的智能体的行为,以到达不同的目的地。

基于效用的Agen基于效用的代理旨在最大化效用功能或价值,精心挑选具有最高预期效用的行动,以衡量结果的有利程度。由于这种设计,基于效用的代理擅长于在复杂和不确定的场景中使用,灵活适应各种情况。

在大多数环境中,仅靠目标并不足以产生高质量的行为。例如,许多动作序列都能使出租车到达目的地(从而实现目标),但有些动作序列比其他动作序列更快、更安全、更可靠或更便宜。同样是在“路线规划”中,可能会有“地铁优先”“步行最少”“换成少”“时间短”等不同的选项,这些就是用户期望的效用。

  • 学习型Agent:这些代理设计用于在未知环境中运行。他们从自己的经历中学习,并随着时间的推移调整自己的行动。深度学习和神经网络经常用于开发学习代理。

在 DeepMind 的一项研究中,就展示了基于世界模型的通用可扩展的算法 DreamerV3在没有人类数据或主动教育的情况下从零开始在《我的世界》(Minecraft)中收集钻石。演示视频显示它收集的第一颗钻石,发生在 30M 环境步数 / 17 天游戏时间之内。

还有一些其他的分类,尽管没有出现在《人工智能:现代方法》一书中,但也值得一提:

信念-欲望-意图Agent:模拟人类的决策过程,具有对环境的信念(认知)、目标(欲望)和计划(意图),能够进行复杂的推理和规划,以达成其目标。我们在文章开头所提到的Google Duplex就是一个非常好的例子,可以被认为是接近于信念-欲望-意图(B-D-I)模型的AI代理。

  • 信念(Belief):Duplex具有对环境的认知,比如理解用户的需求、知道餐厅的开放时间和预约规则。它能够收集和处理信息,形成对当前环境的理解。
  • 欲望(Desire):它基于用户的指令,有明确的目标或欲望,如为用户预订特定日期和时间的餐厅。
  • 意图(Intention):Duplex制定计划和行动步骤来实现这一目标,比如通过电话与餐厅交流,询问可用时间,确认预约细节。
  • 复杂的推理和规划:在进行电话预约时,Duplex能够根据对方的回答进行即时的推理,做出合适的响应,并根据对话情况调整其行动计划,以实现用户的预约意图。

基于逻辑的Agent:通常基于一系列逻辑规则,通过推理来解决问题,适合需要高度逻辑判断的场景,例如法律咨询聊天机器人,通过分析用户的问题和现有的法律规则库,逻辑推理出最合适的法律建议或解答。

分层的AI Agent:按层组织的代理,高级代理负责协调低级代理。这些级别根据系统的复杂性量身定制,在机器人、制造和运输等不同领域表现出色,擅长无缝协调多个任务和子任务。xAgent的组成部分和工作机制就可以被理解为分层的AI代理。在分层AI代理体系中,不同层级的代理负责完成不同抽象层次的任务,从高层的任务规划到底层的具体执行,各层次之间相互协作,以实现复杂任务的有效处理。

其中:调度器:位于体系结构的最高层,负责动态实例化和分派任务给不同的智能体。它允许我们添加新的智能体和改进智能体的能力。这一层相当于高层决策层,对新的智能体进行整合和调度,确保系统能够灵活适应新任务和环境变化。规划器:处于中间层,负责为任务生成和校正计划,它将任务分解为子任务,并为它们生成里程碑,使智能体能够逐步解决任务,桥接了高层的调度决策和底层的执行行动。行动者:位于体系结构的最底层,负责采取行动实现目标和完成子任务。行动者利用各种工具来解决子任务,它也可以与人类合作来解决任务。它直接与环境交互,实现具体目标。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐