阅读:《Agent AI: Surveying the Horizons of Multimodal Interaction》5.1 - 5.6
本文系统梳理了AgentAI的分类体系,主要涵盖五大类智能体:通才智能体(Generalist Agents)强调多任务泛化能力和多模态交互;具身智能体(Embodied Agents)注重物理世界交互,包括行动智能体和交互智能体两个子类;模拟与环境智能体通过虚拟训练场加速学习;生成式智能体利用大模型创造交互内容;知识与逻辑推理智能体则细分为知识智能体、逻辑智能体、情感推理智能体和神经-符号智能体
5 Agent AI 的分类
5.1 通才智能体领域 (Generalist Agent Areas)
基于计算机的行动和通才智能体(Generalist Agents, GAs)对许多任务都很有用。大型基础模型和交互式 AI 领域的最新进展为 GAs 带来了新的功能。然而,要让一个 GA 对其用户真正有价值,它必须能够自然地进行交互,并能泛化到广泛的上下文和模态中。我们在第六章对智能体基础 AI 的主要章节进行了高质量的扩展,特别是在与这些主题大致相关的领域:
多模态智能体 AI(Multimodal Agent AI, MMA)是我们研究和行业社区与更广泛的 Agent AI 研究和技术社区相互交流的一个即将到来的论坛²。大型基础模型和交互式 AI 领域的最新进展为通才智能体(GAs)带来了新的功能,例如在受限环境中预测用户行为和进行任务规划(例如,MindAgent (Gong et al., 2023a),细粒度的多模态视频理解 (Luo et al., 2022),机器人技术 (Ahn et al., 2022b; Brohan et al., 2023)),或为用户提供一个整合了知识反馈的聊天伴侣(例如,医疗保健系统的网站客户支持 (Peng et al., 2023))。关于代表性工作和最新代表性工作的更多细节如下所示。我们希望讨论我们对 MAA 未来的愿景,并激励未来的研究人员在这一领域工作。本文和我们的论坛涵盖以下主要主题,但不仅限于这些:
- 主要主题:多模态智能体 AI,通用智能体 AI
- 次要主题:具身智能体,行动智能体,基于语言的智能体,视觉与语言智能体,知识与推理智能体,游戏/机器人/医疗保健等领域的智能体。
- 扩展主题:视觉导航,模拟环境,重新整理,智能体基础模型,VR/AR/MR,具身视觉与语言。
接下来,我们给出代表性智能体类别的具体列表如下:
5.2 具身智能体 (Embodied Agents)
我们的生物心智存在于身体之中,而我们的身体在一个变化的世界中移动。具身人工智能的目标是创造能够学习创造性地解决需要与环境进行交互的挑战性任务的智能体,例如机器人。虽然这是一个巨大的挑战,但深度学习的重要进步以及像 ImageNet 这样的大型数据集的日益普及,使得在各种以前被认为难以解决的 AI 任务上实现了超人的性能。计算机视觉、语音识别和自然语言处理在像语言翻译和图像分类这样的被动输入输出任务上经历了变革性的革命,而强化学习同样在像游戏这样的交互式任务上取得了世界级的性能。这些进步极大地推动了具身 AI 的发展,使得越来越多的用户能够在智能体与机器交互方面取得快速进展。
导读
这一章开始为庞大的 Agent AI 领域绘制一幅“地图”,将其划分为不同的类别,帮助我们理解不同研究方向的焦点。
5.1 通才智能体领域 (Generalist Agent Areas)
- 核心概念:
- 通才智能体 (Generalist Agent, GA):与只专注于单一任务的“专才智能体”相对,GA 的目标是能够处理多种不同类型的任务,具备更强的泛化能力。
- 多模态智能体 AI (MMA):这是 GA 的一个重要发展方向,强调 Agent 不仅要能处理多种任务,还要能理解和处理多种数据模态(文本、图像、声音等)。
- 本节作用:这部分更像是一个引言和索引。它首先定义了什么是理想的 GA(交互自然、泛化能力强),然后通过列出三个层次的主题(主要、次要、扩展),为整个 Agent AI 领域划定了范围。这为你理解后续章节中出现的各种 Agent 提供了宏观视角。
5.2 具身智能体 (Embodied Agents)
- 核心概念:
- 什么是“具身” (Embodied):简单来说,就是 AI 拥有一个“身体”,并能通过这个身体与物理世界(或虚拟世界)进行交互。这个身体可以是一个机器人,也可以是游戏中的一个虚拟角色。
- 核心思想:真正的智能源于与环境的持续互动。Agent 通过“身体”感知世界、采取行动、观察结果,形成一个学习闭环。
- 与非具身智能体的区别:
- 具身智能体:如扫地机器人、自动驾驶汽车。它们处理的是物理世界的感知和动作。
- 非具身智能体:如 ChatGPT、以及你的代码修复系统。它们存在于纯数字空间,通过 API 和数据流与数字世界交互,没有物理实体。
- 成功的基石:本节强调,具身 AI 的发展离不开其他 AI 分支的成熟。
- CV/NLP:提供了强大的感知能力(看懂世界、听懂指令),解决了“被动输入输出任务”。
- 强化学习 (RL):提供了强大的决策和行动能力(在互动中学习如何行动),解决了“交互式任务”。
- 具身 AI 正是这两大能力的集大成者,让 Agent 既能“看懂”,又能“行动”。
总结与启示:
这一章为你提供了一个分类框架。5.1 节从任务的广度(专才 vs 通才)和数据模态(单模态 vs 多模态)上进行了划分。5.2 节则从 Agent 是否有物理/虚拟身体的角度,引出了“具身智能”这一重要类别。你的项目可以被归类为“非具身的、基于语言的、专才行动智能体”。理解这些分类有助于你将论文中的各种技术和方法与你自己的工作进行对比和定位。
5.2.1 行动智能体 (Action Agents)
行动智能体指的是那些需要在模拟的物理环境或真实世界中执行物理动作的智能体。特别地,它们需要主动地与环境进行活动。我们根据其应用领域,将行动智能体大致分为两个不同类别:游戏 AI 和机器人技术。
在游戏 AI 中,智能体将与游戏环境和其他独立实体进行交互。在这些场景中,自然语言可以实现智能体与人类之间的顺畅沟通。根据游戏的不同,可能会有一个需要完成的特定任务,从而提供一个明确的奖励信号。例如,在具有竞争性的《外交》(Diplomacy)游戏中,使用人类对话数据以及结合了强化学习的行动策略来训练一个语言模型,可以使其达到人类水平的玩法(Meta FAIR Diplomacy Team et al., 2022)。
也存在一些场景,我们让智能体扮演一个小镇中的普通居民(Park et al., 2023a),而不是试图优化某个特定目标。在这些场景中,基础模型非常有用,因为它们可以通过模仿人类行为来模拟出看起来更自然的互动。当辅以外部记忆时,它们能产生令人信服的智能体,这些智能体可以进行对话、有日常安排、建立人际关系,并拥有虚拟生活。
5.2.2 交互智能体 (Interactive Agents)
交互智能体简单地指代那些能与世界进行交互的智能体,这是一个比行动智能体更广泛的类别。它们的交互形式不一定需要物理动作,但可能涉及向用户传达信息或修改环境。例如,一个具身的交互智能体可以通过对话回答用户关于某个主题的问题,或者像聊天机器人一样帮助用户解析现有信息。通过将智能体的能力扩展到包括信息共享,Agent AI 的核心设计和算法可以被有效地应用于一系列应用中,例如诊断智能体(Lee et al., 2023)和知识检索智能体(Peng et al., 2023)。
导读
这两节对智能体的“行为”进行了区分,帮助我们理解不同 Agent 的核心使命。
5.2.1 行动智能体 (Action Agents) - “动手派”
- 核心定义:强调物理上的动作。这类 Agent 的主要任务是在真实或虚拟世界中“动手”做事,比如移动、抓取、操作物体。
- 两大应用场景:
- 游戏 AI:这是一个完美的试验场。
- 有明确目标:比如在策略游戏《外交》中,目标是“赢”。Agent 需要学习复杂的策略和沟通技巧。
- 无明确目标:比如在模拟人生类的虚拟小镇里,Agent 的目标不是“赢”,而是“活得像个人”。它们需要学习社交、规划日常,展现出可信的行为。这正是 LLM 擅长的领域,通过模仿人类行为来驱动 Agent。
- 机器人技术 (Robotics):这是行动智能体在真实世界中的终极体现。
- 游戏 AI:这是一个完美的试验场。
5.2.2 交互智能体 (Interactive Agents) - “动口/动脑派”
- 核心定义:这是一个更广阔的概念。它的关键是“交互”,而这种交互不局限于物理动作。
- 关键区别:“行动智能体”一定是“交互智能体”,但“交互智能体”不一定是“行动智能体”。
- 交互的形式:
- 信息交互:通过对话向用户提供信息(如聊天机器人、问答系统)。
- 环境修改:在数字环境中执行操作,改变其状态。
5.3 模拟与环境智能体 (Simulation and Environments Agents)
让 AI 智能体学习如何在环境中行动的一个有效方法,是通过与环境的交互进行试错体验。一个代表性的方法是强化学习(RL),它需要大量的失败经验来训练一个智能体。尽管存在使用物理智能体的方法(Kalashnikov et al., 2018),但使用物理智能体既耗时又昂贵。此外,当在实际环境中的失败可能带来危险时(例如,自动驾驶、水下航行器),在物理环境中训练通常是不可行的。因此,使用模拟器来学习策略是一种常见的方法。
许多模拟平台已被提出来用于具身 AI 的研究,范围从导航(Tsoi et al., 2022; Deitke et al., 2020; Kolve et al., 2017)到物体操控(Wang et al., 2023d; Mees et al., 2022; Yang et al., 2023a; Ehsani et al., 2021)。一个例子是 Habitat(Savva et al., 2019; Szot et al., 2021),它提供了一个 3D 室内环境,人类和机器人智能体可以在其中执行各种任务,如导航、指令跟随和问答。另一个代表性的模拟平台是 VirtualHome(Puig et al., 2018),它支持在 3D 室内环境中用于物体操控的人类化身。在游戏领域,Carroll 等人引入了“Overcooked-AI”,这是一个旨在研究人与 AI 之间协作任务的基准环境(Carroll et al., 2019)。沿着类似的思路,一些工作旨在将真实的人类干预纳入其中,超越了智能体与环境之间交互的焦点(Puig et al., 2023; Li et al., 2021a; Srivastava et al., 2022)。这些模拟器有助于在涉及智能体和机器人交互的实际场景中学习策略,以及利用人类演示动作进行基于模仿学习(IL)的策略学习。
在某些场景下,学习策略的过程可能需要在模拟器中集成专门的功能。例如,在学习基于图像的策略时,通常需要逼真的渲染以促进对真实环境的适应性(Mittal et al., 2023; Zhong et al., 2023)。利用逼真的渲染引擎对于生成能反映各种条件(如光照环境)的图像是有效的。此外,需要采用物理引擎的模拟器来模拟与物体的物理交互(Liu and Negrut, 2021)。在模拟中集成物理引擎已被证明有助于获得适用于现实世界场景的技能(Saito et al., 2023)。
5.4 生成式智能体 (Generative Agents)
大型生成式 AI 模型领域的最新进展,有潜力极大地降低当前创建交互式内容所需的高昂成本和时间,这既适用于大型游戏工作室,也能够赋能小型独立工作室创造出目前能力之外的高质量体验。此外,将大型 AI 模型嵌入沙盒环境将允许用户创作自己的体验,并以目前无法实现的方式表达他们的创造力。
这类智能体的目标超越了简单地向场景中添加交互式 3D 内容,还包括:
- 为物体添加任意行为和交互规则,允许用户以最少的提示创建自己的 VR 规则。
- 通过使用多模态 GPT4-v 模型以及涉及视觉 AI 模型的其他模型链,从一张纸上的草图生成整个关卡的几何形状。
- 使用扩散模型对场景中的内容进行重新纹理化。
- 从简单的用户提示创建自定义着色器和视觉特效。
一个近期的潜在应用是用于 VR 的故事板/原型工具,允许单个用户以比当前可行速度快一个数量级的速度创建一个体验/游戏的粗略(但功能齐全的)草图。然后,这样的原型也可以使用这些工具进行扩展和打磨。
5.3 模拟与环境智能体 - “AI 的健身房与训练场”
- 核心思想:对于需要与物理世界交互的具身智能体(如机器人),直接在现实中训练是危险、昂贵且缓慢的。因此,为它们构建一个虚拟的“训练场”——即模拟器——是必经之路。
- 模拟器的作用:
- 提供海量经验:让 Agent 在安全的环境里尽情“试错”,快速积累强化学习所需的数据。
- 支持多样化任务:论文提到了用于导航的
Habitat、用于操控的VirtualHome、用于人机协作的Overcooked-AI等。
- 核心挑战:Sim2Real Gap (模拟与现实的鸿沟)
- 在模拟器里训练得再好,如果不能应用到现实世界,也是徒劳。如何让 Agent 在模拟器中学到的技能成功迁移到现实中,是该领域的关键难题。
- 弥合鸿沟的方法:让模拟器尽可能地逼近现实。
- 逼真的渲染 (Realistic Rendering):让模拟器里的世界在视觉上看起来和真的一样(光影、材质、纹理)。
- 物理引擎 (Physics Engine):让模拟器里的世界在规律上和真的一样(重力、摩擦、碰撞、流体)。
- 与您的项目的类比:虽然您的项目是非具身的,但这个概念依然适用。您的本地开发环境、测试服务器就可以看作是一个“模拟器”。您在这个“模拟器”中开发和测试您的 Agent,确保它能正确地与 Git、Azure DevOps API 等“数字环境”交互。而生产环境就是“现实世界”。您遇到的“模拟与现实的鸿沟”可能是:生产环境的 API 权限不同、网络延迟更高、数据格式有细微差异等。
5.4 生成式智能体 - “从世界的使用者到世界的创造者”
- 核心思想:这是一个范式转变。之前的 Agent 都是在既定环境中学习如何行动,而生成式智能体则是利用大模型的能力来创造环境本身。
- 它们能创造什么?
- 行为规则:用自然语言定义游戏里一个道具的功能。
- 3D 模型/关卡:画一张草图,AI 就能生成一个游戏关卡。
- 视觉效果:用一句话生成新的材质贴图、着色器或特效。
- 目标:极大地降低内容创作的门槛,实现“所想即所得”。让非专业人士也能快速搭建出游戏原型、VR 体验等复杂的交互式内容。
5.5 知识与逻辑推理智能体
推理和应用知识的能力是人类认知的一个决定性特征,在逻辑推演和理解心智理论³等复杂任务中尤为明显。对知识进行推理可以确保 AI 的响应和行动与已知事实及逻辑原则保持一致。这种连贯性是维持 AI 系统信任度和可靠性的关键机制,尤其是在医疗诊断或法律分析等关键应用中。在这里,我们介绍那些融合了知识与推理相互作用的智能体,它们致力于解决智能和推理的特定方面。
5.5.1 知识智能体 (Knowledge Agent)
知识智能体在两个方向上对其获取的知识体系进行推理:隐性和显性。隐性知识通常是像 GPT 系列这样的大规模语言模型(Brown et al., 2020; OpenAI, 2023)在海量文本数据上训练后所封装的内容。这些模型可以生成给人以理解错觉的响应,因为它们借鉴了训练期间隐式学到的模式和信息。相反,显性知识是结构化的,可以直接查询,例如知识库或数据库中的信息,传统上这些信息被用来通过引用可验证的外部资源来增强 AI 的推理能力。
尽管语言模型取得了进步,但它们的隐性知识是静态的,并随着世界的发展而变得过时(Lewis et al., 2020; Peng et al., 2023)。这一局限性使得整合持续更新的显性知识源变得至关重要,以确保 AI 系统能够提供准确和最新的响应。隐性知识和显性知识的融合,为 AI 智能体提供了更细致的理解和在上下文中应用知识的能力,类似于人类智能(Gao et al., 2022)。这种整合对于打造以知识为中心的 AI 智能体至关重要,这些智能体不仅拥有信息,还能理解、解释和运用信息,从而缩小了广泛学习与深刻知识之间的鸿沟(Marcus and Davis, 2019; Gao et al., 2020)。这些智能体被设计用来对关于世界的动态信息进行灵活推理,增强了它们的鲁棒性和适应性(Marcus, 2020)。
5.5.2 逻辑智能体 (Logic Agents)
通常,逻辑智能体是系统的一个组件,旨在应用逻辑推理来处理数据或解决特定于逻辑推断或逻辑推理的任务。在像 GPT-4 这样的大型基础模型的背景下,逻辑智能体指的是为处理逻辑推理任务而设计的专门组件或子模块。这些任务通常涉及理解和操作抽象概念、从给定前提出发推导结论,或解决需要结构化、逻辑性方法的问题。广义上讲,像 GPT-4 这样的基础模型在庞大的文本语料库上进行训练,并学会执行广泛的任务,包括那些需要某种形式逻辑推理的任务。因此,它们的逻辑推理能力被整合在整体架构中,通常不拥有一个独立的、隔离的“逻辑智能体”。虽然 GPT-4 和类似模型可以执行涉及逻辑的任务,但它们的方法与人类或传统基于逻辑的系统的运作方式有根本的不同。它们不遵循形式化的逻辑规则,也没有对逻辑的明确理解;相反,它们基于从训练数据中学到的模式来生成响应。因此,它们在逻辑任务中的表现可能令人印象深刻,但也可能不一致,或受到训练数据性质和模型设计固有局限性的限制。将一个独立的逻辑子模块嵌入架构的一个例子是(Wang et al., 2023e),该工作通过将文本解析为逻辑段并在词元嵌入中明确地建模逻辑层次,修改了 LLM 在预训练期间使用的词元嵌入过程。
5.5.3 用于情感推理的智能体 (Agents for Emotional Reasoning)
在许多人机交互中,情感理解和共情是智能体的重要技能。举例来说,创建引人入胜的对话智能体的一个重要目标是让智能体在行动时表现出更多的情感和共情,同时最大限度地减少不当或冒犯性的输出。为了在对话智能体上实现这一目标,我们发布了带有共情的神经图像评论(NICE)数据集(Chen et al., 2021),其中包含近两百万张图片以及相应的人类生成评论和一组人类情感注释。我们还提供了一种新颖的预训练模型——为图像评论建模情感生成(MAGIC)(Chen et al., 2021)——旨在根据捕捉风格和情感的语言表征为图像生成评论,并帮助生成更具共情、情感、吸引力和社会适宜性的评论。我们的实验表明,该方法在训练更像人类、更吸引人的图像评论智能体方面是有效的。开发具有共情意识的智能体是交互式智能体的一个有前途的方向,并且重要的是要创建在广泛群体和人群中都具有情感理解能力的智能体,特别是考虑到许多当前的语言模型在其情感理解和共情推理能力上表现出偏见(Mao et al., 2022; Wake et al., 2023d)。
5.5.4 神经-符号智能体 (Neuro-Symbolic Agents)
神经-符号智能体在一个由神经元和符号组成的混合系统上运行(d’Avila Garcez and Lamb, 2020)。解决用自然语言陈述的问题是一项具有挑战性的任务,因为它需要明确捕捉输入中隐含的离散符号结构信息。然而,大多数通用的神经序列模型并没有明确捕捉这种结构信息,限制了它们在这些任务上的性能。工作(Chen et al., 2020)提出了一种基于结构化神经表示智能体的新型编码器-解码器模型。TP-N2F 的编码器采用 TPR“绑定”来在向量空间中编码自然语言的符号结构,解码器则使用 TPR“解绑”在符号空间中生成一个由关系元组表示的顺序程序,每个元组由一个关系(或操作)和若干参数组成。
像 GPT-4 这样的指令跟随视觉-语言(VL)模型提供了一个灵活的接口,以零样本方式支持广泛的多模态任务。然而,在完整图像上操作的接口不能直接让用户“指向”并访问图像中的特定区域。这种能力不仅对于支持基于指代的 VL 基准测试很重要,而且对于需要精确的图像内推理的实际应用也很重要。在(Park et al., 2023b)中,我们构建了局部化视觉常识模型,允许用户指定(多个)区域作为输入。我们通过从大型语言模型(LLM)中采样局部化常识知识来训练我们的模型:具体来说,我们提示一个 LLM,根据一组 VL 模型自动生成的全局字面图像描述和局部字面区域描述来收集常识知识。这个流程是可扩展且全自动的,因为不需要对齐的或人工创作的图像和文本对。通过一个单独训练的、用于筛选高质量样本的评论家模型,我们发现,仅在从图像中扩展出的局部化常识语料库上进行训练,就可以成功地将现有的 VL 模型提炼成支持以指代为输入接口的模型。在零样本设置下的实证结果和人类评估表明,与传递一个生成的指代表达式的基线相比,我们的提炼方法能产生更精确的 VL 推理模型。
这一长节探讨了如何让 Agent 变得更“聪明”,而不仅仅是模仿。它将“智能”分解为几个关键能力:知识、逻辑、情感和符号推理。
5.5.1 知识智能体 - “博学的大脑”
- 核心思想:Agent 的知识分为两种。
- 隐性知识 (Implicit):LLM 通过海量数据训练获得的“常识”和“语感”。它很强大,但却是静态的、会过时的。
- 显性知识 (Explicit):存储在数据库、API 或配置文件中的结构化、可验证、可更新的知识。
- 解决方案:融合两者。让 LLM 的通用推理能力与外部的、动态更新的知识库相结合,才能打造出既博学又准确的 Agent。
5.5.2 逻辑智能体 - “严谨的大脑”
- 核心思想:LLM 的“逻辑”是基于模式匹配,而非严格的形式逻辑。它看起来懂逻辑,但有时会犯一些低级的逻辑错误,因为它只是在模仿它见过的文本模式。
- 解决方案:研究人员正尝试将独立的、更严格的逻辑模块嵌入到 LLM 架构中,让它在处理需要严密推理的任务时,能从“凭感觉”切换到“按规矩”。
- 与您的项目的关联:您的
SonarQubeAutoFixOrchestrator系统通过 LangGraph 构建了一个有向图。这个图本身就是一种显性逻辑的体现。您没有让 LLM 自由发挥决定下一步做什么,而是定义了一个严格的流程(分析->设置->生成->执行...)。这相当于用外部框架为 LLM 的工作流程施加了强大的逻辑约束,确保了任务的可靠性。
5.5.3 情感推理智能体 - “有情商的大脑”
- 核心思想:为了更好地与人协作,Agent 需要理解和表达情感,即具备“情商”。
- 挑战:这很难,而且容易产生偏见。
- 解决方案:构建带有情感标签的数据集(如 NICE),并训练专门的模型(如 MAGIC)来学习生成带有适当情感的回应。
- 与您的项目的关联:目前关联不大。但可以设想,如果您的 Agent 未来需要与开发者在 IM 工具(如飞书)里进行更复杂的交互,比如协商修复方案或解释失败原因,那么具备一定的情感理解能力,使用更礼貌、更具协作性的语气,将会提升用户体验。
5.5.4 神经-符号智能体 - “左右脑结合的大脑”
- 核心思想:这是 AI 的一个经典前沿方向,旨在结合两种方法的优点:
- 神经 (Neuro):神经网络(如 LLM),擅长处理模糊、非结构化的数据,进行模式识别和直觉判断(类似右脑)。
- 符号 (Symbolic):传统逻辑和程序,擅长处理精确、结构化的符号,进行严密推理(类似左脑)。
- 目标:让 Agent 既能理解自然语言的模糊性,又能进行程序般的精确操作。
- 例子:
- 将自然语言指令(“把最大的红球放到蓝盒子里”)分解成可执行的符号化程序
move(find(biggest, red, ball), find(blue, box))。 - 让用户可以在图片上“指一下”某个区域,Agent 就能理解这个“指代”并对该区域进行推理,而不是只能理解对整张图片的描述。
- 将自然语言指令(“把最大的红球放到蓝盒子里”)分解成可执行的符号化程序
这篇论文提供的是一个偏向学术研究和理论框架的分类体系,它从智能体的核心能力(如具身、推理、生成)和学习方式(如RL、IL)等底层维度进行划分。
而在实际的商业市场和开源社区中,人们更习惯从应用领域和最终目的来划分和命名智能体。这些“市面上的”智能体通常是论文中多种理论类型的一个或多个组合的具体产品化实现。
更多推荐

所有评论(0)