论文阅读--Agent AI 探索多模态交互的前沿领域(二)
不同于将冻结的大型语言模型(LLMs)和视觉语言模型(VLMs)用于构建人工智能智能体,我们也可以采用单一的智能体 Transformer 模型,该模型接收视觉令牌(visual tokens)和语言令牌(language tokens)作为输入,类似 Gato(Reed et al., 2022)。除视觉和语言外,我们新增了第三种通用输入类型,称为智能体令牌(agent tokens)。
3. Agent AI 范式
本节将探讨一种用于训练 Agent AI 的全新范式与框架。我们提出的这一框架旨在实现以下几个核心目标:
- 充分利用现有的预训练模型和预训练策略,为智能体提供坚实基础,使其能够有效理解文本、视觉等关键模态信息;
- 支持强大的长期任务规划能力;
- 构建记忆框架,使习得的知识能够被编码存储并在后续按需检索;
- 利用环境反馈有效训练智能体,使其学会选择合适的动作。
图 5 展示了该系统关键子模块的高层架构图。

- 图 5 本文提出一种面向多模态通用智能体的全新智能体范式。如图所示,系统包含五大核心模块:1) 环境与感知模块:负责任务规划与技能观测;2) 智能体学习模块;3) 记忆模块;4) 智能体动作模块;5) 认知模块。
3.1 大型语言模型(LLMs)与视觉语言模型(VLMs)
我们可以利用大型语言模型(LLM)或视觉语言模型(VLM)来构建智能体的核心组件,如图 5 所示。具体而言,大型语言模型(LLMs)已被证实在任务规划方面表现出色,蕴含丰富的世界知识,并具备令人印象深刻的逻辑推理能力。此外,以 CLIP 为代表的视觉语言模型(VLMs)提供了与语言对齐的通用视觉编码器,同时具备零样本视觉识别能力。例如,目前最先进的开源多模态模型(如 LLaVA(Liu et al., 2023c)和 InstructBLIP(Dai et al., 2023))均依赖冻结的 CLIP 模型作为视觉编码器。
3.2 智能体 Transformer 定义
不同于将冻结的大型语言模型(LLMs)和视觉语言模型(VLMs)用于构建人工智能智能体,我们也可以采用单一的智能体 Transformer 模型,该模型接收视觉令牌(visual tokens)和语言令牌(language tokens)作为输入,类似 Gato(Reed et al., 2022)。除视觉和语言外,我们新增了第三种通用输入类型,称为智能体令牌(agent tokens)。从概念上讲,智能体令牌用于为模型的输入和输出空间预留特定子空间,专门用于处理智能体化行为(agentic behaviors)。在机器人技术或游戏领域,智能体令牌可表示控制器的输入动作空间;在训练智能体使用特定工具(如图像生成或图像编辑模型)或进行其他 API 调用时,也可使用智能体令牌。如图 7 所示,我们可以将智能体令牌与视觉令牌、语言令牌相结合,构建用于训练多模态智能体人工智能的统一接口。与使用大型专有大型语言模型(LLMs)作为智能体相比,使用智能体 Transformer 具有以下几个优势:首先,该模型可以轻松定制,以适应那些难以用自然语言描述的特定智能体化任务(如控制器输入或其他特定动作),因此智能体能够从环境交互和特定领域数据中学习,进而提升性能;其次,通过获取智能体令牌的概率分布,更容易理解模型为何采取或不采取特定动作;第三,在医疗和法律等特定领域,存在严格的数据隐私要求,智能体 Transformer 更易满足此类需求;最后,相对小型的智能体 Transformer 在成本上可能远低于大型专有语言模型。
- 图 6 本文展示了当前通过融合大语言模型(LLM)与大视觉模型(LVM)来构建多模态 AI 智能体的主流范式。通常,这类模型接收视觉或语言输入,采用预训练且参数冻结的视觉与语言模型,仅学习用于连接与桥接不同模态的小型子网络。

- 图 7 统一智能体多模态 Transformer 模型不同于将参数冻结的子模块进行连接、并以现有基础模型作为构建单元的做法,我们提出一种面向智能体系统的统一化、端到端训练范式。我们仍可如图 6 所示,使用大语言模型(LLM)与大视觉模型(LVM)对子模块进行初始化,同时引入智能体 Token—— 这类专用 Token 用于训练模型在特定领域(如机器人)中执行智能体行为。有关智能体 Token 的更多细节,参见第 3.2 节。
3.3 智能体 Transformer 的构建
如图 5 所示,我们可以采用基于大型语言模型(LLM)和视觉语言模型(VLM)构建的智能体新范式,同时利用大型基础模型生成的数据训练智能体 Transformer 模型,使其能够学会执行特定目标。在此过程中,智能体模型会被训练为针对特定任务和领域的专用模型。这种方法能够充分利用现有基础模型已习得的特征和知识。以下是该过程的简化概述,主要分为两个步骤:
3.3.1 定义领域内目标
为了训练智能体 Transformer,需要明确智能体在每个特定环境背景下的目标和动作空间。这包括确定智能体需要执行的具体任务或动作,并为每个任务或动作分配唯一的智能体令牌。此外,任何可用于识别任务成功完成的自动规则或流程,都能显著增加可用于训练的数据量;否则,就需要使用基础模型生成的数据或人工标注的数据来训练模型。在收集完数据并能够评估智能体性能后,即可启动持续改进过程。
3.3.2 持续改进
持续监测模型性能并收集反馈是该过程的关键步骤。反馈应用于模型的进一步微调与更新。同时,必须确保模型不会延续偏见或产生不道德的输出结果,这就需要仔细检查训练数据、定期检测输出中的偏见,必要时训练模型识别并避免这些偏见。一旦模型达到令人满意的性能,即可部署用于预期应用场景。但持续监测仍然至关重要,以确保模型始终按预期运行,并便于进行必要的调整。关于这一过程、训练数据来源以及智能体人工智能持续学习的更多细节,可参见第 8 节。
4 Agent AI 的学习
4.1 策略与机制
跨领域交互式人工智能的核心策略,是在调用大型基础模型的范式基础上进行延伸 —— 通过训练一个主动收集用户反馈、动作信息及生成与交互所需实用知识的智能体来实现。在某些场景下,无需对大型语言模型(LLMs)或视觉语言模型(VLMs)进行重新训练,而是通过在测试阶段为智能体提供优化后的上下文提示来提升其性能。另一方面,该策略始终涉及知识 / 推理 / 常识 / 推理的交互式建模,具体通过三重系统组合实现:一个负责从多模态查询中检索知识,一个负责通过相关智能体进行交互式生成,最后一个则通过强化学习或改进后的模仿学习,进行全新的、信息丰富的自监督训练或预训练。
4.1.1 强化学习(RL)
利用强化学习(RL)训练具备智能行为的交互式智能体有着深厚的研究历史。强化学习是一种基于动作产生的奖励(或惩罚)来学习状态与动作间最优关系的方法论。作为一种高度可扩展的框架,强化学习已被应用于包括机器人技术在内的众多领域,但它通常面临若干挑战,而大型语言模型(LLMs)和视觉语言模型(VLMs)已展现出缓解或克服其中部分困难的潜力:
-
奖励函数设计:策略学习的效率在很大程度上取决于奖励函数的设计。设计奖励函数不仅需要掌握强化学习算法知识,还需对任务本质有深刻理解,因此往往需要基于专家经验进行定制。已有多项研究探索利用大型语言模型(LLMs)/ 视觉语言模型(VLMs)设计奖励函数。
-
数据收集与效率:由于强化学习具有探索性质,基于强化学习的策略学习需要大量数据。当策略涉及处理长序列或整合复杂动作时,对海量数据的需求尤为突出 —— 这类场景需要更细致的决策制定,且需从更多样化的情况中学习。近期研究中,已有相关工作致力于增强数据生成以支持策略学习;此外,部分研究还将这些模型整合到奖励函数中以改进策略学习。与此同时,另一类研究聚焦于利用视觉语言模型(VLMs)和大型语言模型(LLMs)实现学习过程的参数效率优化。
-
长序列步骤:与数据效率问题相关的是,随着动作序列长度的增加,强化学习的难度会显著上升。这是因为动作与奖励之间的关系变得模糊(即信用分配问题),且需要探索的状态数量大幅增加,导致需要耗费大量时间和数据。针对长而复杂的任务,一种典型方法是将其分解为一系列子目标,并应用预训练策略解决每个子目标。这一思路属于任务与运动规划(TAMP)框架的范畴,该框架主要包含两个核心组件:任务规划(负责确定高层动作序列)和运动规划(负责寻找物理上一致、无碰撞的轨迹以实现任务规划的目标)。
大型语言模型(LLMs)非常适合任务与运动规划(TAMP),近期研究常采用的方案是:利用大型语言模型(LLMs)执行高层任务规划,同时通过基于强化学习的策略处理底层控制。大型语言模型(LLMs)的先进能力使其能够有效将甚至抽象的指令分解为子目标,进而提升机器人系统的语言理解能力。
4.1.2 模仿学习(IL)
强化学习的目标是基于探索行为和与环境交互最大化奖励来训练策略,而模仿学习(IL)则旨在利用专家数据来模仿经验丰富的智能体或人类专家的动作。例如,在机器人技术领域,基于模仿学习的主要框架之一是行为克隆(BC)。行为克隆是一种让机器人通过直接复制专家动作来模仿专家行为的方法 —— 记录专家执行特定任务时的动作,然后训练机器人在类似场景中重现这些动作。近期基于行为克隆的方法通常整合了大型语言模型(LLMs)/ 视觉语言模型(VLMs)技术,从而实现更先进的端到端模型。例如,Brohan 等人提出了 RT-1(Brohan et al., 2022)和 RT-2(Brohan et al., 2023),这两种基于 Transformer 的模型以一系列图像和语言为输入,输出基座和机械臂的动作序列。据报道,这些模型通过在海量训练数据上训练,展现出了优异的泛化性能。
4.1.3 传统 RGB 图像输入
多年来,利用图像输入学习智能体行为一直是研究热点。使用 RGB 输入的固有挑战是维度灾难。为解决这一问题,研究人员要么使用更多数据,要么在模型设计中引入归纳偏置以提高样本效率。具体而言,研究人员会在模型架构中融入 3D 结构以支持操作任务;在机器人导航领域,研究人员则利用地图作为表示形式— 地图既可以通过聚合所有先前 RGB 输入的神经网络学习得到,也可以通过神经辐射场(Neural Radiance Fields)等 3D 重建方法生成。
为获取更多数据,研究人员会利用图形模拟器合成数据,并尝试缩小模拟到现实的差距(sim2real gap)。近期,已有相关研究共同致力于构建大规模数据集以解决数据稀缺问题。另一方面,数据增强技术也得到了广泛研究,以提升样本复杂度。
4.1.4 上下文学习
随着 GPT-3 等大型语言模型的出现,上下文学习已被证明是解决自然语言处理(NLP)任务的有效方法。通过在大型语言模型(LLM)提示中提供任务示例,少样本提示成为在多种自然语言处理(NLP)任务中实现模型输出上下文关联的有效方式。上下文演示示例的多样性和质量等因素可能会提升模型输出的质量。在多模态基础模型的背景下,Flamingo 和 BLIP-2 等模型已被证明,仅需少量示例就能在多种视觉理解任务中表现出色。对于环境中的智能体,当采取特定动作时,融入环境特异性反馈可以进一步改进上下文学习。
4.1.5 智能体系统的优化
智能体系统的优化可分为空间维度和时间维度两个方面:
- 空间优化:关注智能体如何在物理空间内执行任务,包括机器人间协作、资源分配以及空间有序化。
为有效优化智能体人工智能系统(尤其是包含大量并行工作智能体的系统),已有研究聚焦于使用大批量强化学习。由于特定任务的多智能体交互数据集较为稀缺,自对弈强化学习使智能体团队能够逐步提升性能。然而,这也可能导致智能体过于脆弱 —— 它们仅能在自对弈场景下工作,而无法与人类或其他独立智能体协作,因为它们过度拟合了自对弈训练范式。为解决这一问题,我们可以转而探索多样化的约定集合,并训练能够识别多种约定的智能体。基础模型还可以进一步帮助与人类或其他独立智能体建立约定,从而实现与新智能体的顺畅协作。 - 时间优化:聚焦于智能体如何随时间执行任务,包括任务调度、排序和时间线效率。例如,优化机器人手臂的运动轨迹,就是在连续任务之间高效优化运动的典型案例。在任务调度层面,已有研究提出了 LLM-DP(Dagan et al., 2023)和 ReAct(Yao et al., 2023a)等方法,通过交互式融入环境因素来实现高效任务规划。
4.2 智能体系统(零样本和少样本级别)
4.2.1 智能体模块
我们对智能体范式的探索,涉及利用大型语言模型(LLMs)或视觉语言模型(VLMs)开发交互式多模态智能体的 “模块”。我们最初的智能体模块支持训练或上下文学习,并采用极简设计,以展示智能体的有效调度和协作能力。我们还探索了基于提示的初始记忆技术,以促进该领域内更优的规划和未来动作方法制定。例如,我们的 “MindAgent” 架构包含 5 个主要模块:1)带任务规划和技能观察的环境感知;2)智能体学习;3)记忆;4)通用智能体动作预测;5)认知,如图 5 所示。
4.2.2 智能体基础设施
基于智能体的人工智能在娱乐、研究和工业领域已形成庞大且快速发展的社区。大型基础模型的发展显著提升了智能体人工智能系统的性能,但构建这类智能体仍受到以下因素限制:高质量数据集的创建需要耗费大量精力,且整体成本较高。在微软,通过使用先进硬件、多样化数据源和强大的软件库,构建高质量智能体基础设施已对多模态智能体副驾产生了重大影响。随着微软不断突破智能体技术的边界,人工智能智能体平台有望在未来多年内持续主导多模态智能领域。尽管如此,当前智能体人工智能交互仍是一个复杂过程,需要多种技能的结合。大型生成式人工智能模型领域的近期进展,有望大幅降低交互式内容的当前高成本和耗时 —— 这不仅对大型工作室有利,也能让小型独立内容创作者设计出超出其当前能力范围的高质量体验。多模态智能体内的当前人机交互系统主要基于规则,它们虽能对人类 / 用户动作做出智能响应,并在一定程度上具备网络知识,但这些交互往往受限于软件开发成本,仅能实现系统中的特定行为。此外,当前模型在用户无法完成特定任务时,并未设计用于帮助人类达成目标的功能。因此,需要一种智能体人工智能系统基础设施,能够分析用户行为,并在需要时提供适当支持。
4.3 智能体化基础模型(预训练和微调级别)
预训练基础模型的优势在于其可广泛应用于多种用例。整合这些模型能够为各类应用开发定制化解决方案,无需为每个特定任务准备大量标注数据集。
导航领域的一个典型示例是 LM-Nav 系统(Shah et al., 2023a),该系统创新性地整合了 GPT-3 和 CLIP。它有效利用语言模型生成的文本地标,并将其与机器人获取的图像关联以实现导航。这种方法实现了文本和视觉数据的无缝融合,在保持广泛适用性的同时,显著提升了机器人导航能力。
在机器人操作领域,已有多项研究提出使用现成的大型语言模型(LLMs)(例如 ChatGPT),同时结合开放词汇对象检测器。大型语言模型(LLM)与先进对象检测器的结合,有助于理解人类指令,同时将文本信息与场景信息关联。此外,最新进展显示,利用提示工程结合 GPT-4V(ision)等先进多模态模型具有巨大潜力。该技术为多模态任务规划开辟了新路径,凸显了预训练模型在多种场景中的灵活性和适应性。
5. Agent AI 的分类
5.1 通用智能体领域(Generalist Agent Areas)
基于计算机的动作智能体和通用智能体(GAs)可应用于多种任务。随着大型基础模型和交互式人工智能领域的最新进展,通用智能体已具备新的功能。然而,一个真正对用户有价值的通用智能体,必须具备自然的交互能力,并能在广泛的场景和模态中实现泛化。我们在第 6 节中详细扩展了智能体基础人工智能的主要章节,尤其聚焦于与这些主题相关的领域:
多模态智能体人工智能(Multimodal Agent AI, MAA)是一个即将推出的论坛,旨在促进研究界与产业界之间,以及与更广泛的智能体人工智能研究和技术社区之间的交流。大型基础模型和交互式人工智能的最新进展为通用智能体赋予了新功能,例如在受限场景中预测用户动作和进行任务规划、细粒度多模态视频理解、机器人技术,或提供整合知识反馈的聊天伴侣(如医疗系统的网站客户支持)。以下将详细介绍代表性研究成果及最新进展。我们希望通过本文探讨多模态智能体人工智能的未来愿景,激励更多研究人员投身该领域。本文及相关论坛涵盖以下主要主题,但不限于这些内容:
- 核心主题:多模态智能体人工智能、通用智能体人工智能
- 次要主题:具象化智能体、动作智能体、基于语言的智能体、视觉 - 语言智能体、知识与推理智能体、游戏智能体、机器人智能体、医疗智能体等
- 扩展主题:视觉导航、模拟环境、场景重构、智能体化基础模型、增强现实 / 虚拟现实 / 混合现实、具象化视觉 - 语言交互
接下来,我们将具体列出具有代表性的智能体分类:
5.2 具象化智能体(Embodied Agents)
人类的生物思维存在于身体之中,而身体在不断变化的世界中活动。具象化人工智能的目标是创建能够创造性地解决需要与环境交互的挑战性任务的智能体(如机器人)。尽管这是一项重大挑战,但深度学习的重要进展以及 ImageNet 等大规模数据集的日益普及,已使人工智能在众多以往被认为难以完成的任务上实现了超越人类的性能。计算机视觉、语音识别和自然语言处理在语言翻译、图像分类等被动输入 - 输出任务中经历了变革性的革新,强化学习在游戏等交互式任务中也取得了世界级的性能。这些进展为具象化人工智能注入了强大动力,使越来越多的研究者能够在开发可与机器交互的智能体方面取得快速进展。
5.2.1 动作智能体(Action Agents)
动作智能体指需要在模拟物理环境或现实世界中执行物理动作的智能体,尤其需要主动与环境进行交互。根据应用领域,我们将动作智能体大致分为两类:游戏人工智能和机器人技术。
在游戏人工智能中,智能体将与游戏环境及其他独立实体进行交互。在这些场景中,自然语言能够促进智能体与人类之间的顺畅沟通。根据游戏类型的不同,可能存在特定的任务目标,并提供真实的奖励信号。例如,在竞技类游戏《外交风云(Diplomacy)》中,利用人类对话数据训练语言模型,并结合强化学习优化动作策略,能够实现人类级别的游戏表现。
此外,在某些场景中,智能体可作为城镇中的普通居民,无需优化特定目标。基础模型在这些场景中具有重要作用,因为它们能够通过模仿人类行为,模拟出更自然的交互。当配备外部记忆时,这些智能体能够进行对话交流、制定日常日程、建立人际关系,拥有虚拟生活。
5.2.2 交互式智能体(Interactive Agents)
交互式智能体泛指能够与世界进行交互的智能体,是比动作智能体更广泛的类别。它们的交互形式不一定需要物理动作,可能包括向用户传递信息或修改环境。例如,具象化交互式智能体可以通过对话回答用户关于某个主题的问题,或像聊天机器人一样帮助用户解析现有信息。通过将信息共享纳入智能体的功能范围,Agent AI 的核心设计和算法可有效适配多种应用场景,如诊断智能体(Lee et al., 2023)和知识检索智能体(Peng et al., 2023)。
5.3 模拟与环境智能体(Simulation and Environments Agents)
人工智能智能体学习在环境中行动的一种有效方法,是通过与环境交互进行试错体验。强化学习(RL)是一种具有代表性的方法,该方法需要大量的失败经验来训练智能体。尽管存在使用物理智能体进行训练的方法,但物理智能体训练耗时且成本高昂。此外,在实际环境中训练往往存在安全风险(例如自动驾驶、水下航行器),因此使用模拟器学习策略是一种常见的方法。
目前已有多种面向具象化人工智能研究的模拟平台被提出,涵盖导航到物体操作等多个领域。例如,Habitat 提供了一个 3D 室内环境,人类智能体和机器人智能体可在其中执行导航、指令跟随、问答等多种任务;另一个具有代表性的模拟平台是 VirtualHome,支持人类虚拟形象在 3D 室内环境中进行物体操作。在游戏领域,Carroll 等人推出了 “Overcooked-AI”,这是一个用于研究人类与人工智能协作任务的基准环境。此外,还有多项研究旨在超越智能体与环境之间的交互,纳入真实人类的干预。这些模拟器有助于在涉及智能体与机器人交互的实际场景中学习策略,以及利用人类演示动作进行基于模仿学习(IL)的策略训练。
在某些场景中,学习策略可能需要在模拟器中整合特定功能。例如,在学习基于图像的策略时,通常需要真实感渲染以促进对现实环境的适应性。利用真实感渲染引擎能够生成反映各种条件(如光照环境)的图像;此外,采用物理引擎的模拟器需要模拟与物体的物理交互。研究表明,在模拟中整合物理引擎有助于获取适用于现实场景的技能。
5.4 生成式智能体(Generative Agents)
大型生成式人工智能模型领域的最新进展,有望大幅降低交互式内容的当前高成本和耗时 —— 这不仅对大型游戏工作室有利,还能让小型独立工作室创造出超出其当前能力范围的高质量体验。此外,将大型人工智能模型嵌入沙盒环境,将允许用户创作自己的体验,并以目前无法实现的方式表达创造力。
这类智能体的目标不仅是为场景添加交互式 3D 内容,还包括:
- 为物体添加任意行为和交互规则,允许用户通过最少的提示创建自己的虚拟现实规则
- 利用多模态 GPT-4V 模型以及其他包含视觉人工智能模型的模型链,根据纸上草图生成完整的关卡几何结构
- 利用扩散模型为场景中的内容重新纹理化
- 通过简单的用户提示创建自定义着色器和视觉特效
短期内的一个潜在应用是开发虚拟现实故事板 / 原型工具,使单个用户能够以比目前快一个数量级的速度创建体验 / 游戏的粗略(但可运行)原型。此后,还可以利用这些工具对该原型进行扩展和优化。
5.4.1 增强现实 / 虚拟现实 / 混合现实智能体(AR/VR/mixed-reality Agents)
增强现实 / 虚拟现实 / 混合现实(统称 XR)场景目前需要专业艺术家和动画师创建用于模拟虚拟世界交互的角色、环境和物体。这是一个成本高昂的过程,涉及概念艺术、3D 建模、纹理绘制、绑定和动画制作。XR 智能体可以通过促进创作者之间的交互,并构建工具帮助构建最终的虚拟环境,为这一过程提供支持。
我们的早期实验已经证明,GPT 模型可以在 Unity 引擎中以少样本模式(无需额外微调)调用引擎特定方法、通过 API 调用从互联网下载 3D 模型并将其放置到场景中,以及为这些模型分配行为和动画状态树。这种能力的出现可能是由于开源游戏仓库中存在使用 Unity 的类似代码。因此,GPT 模型能够通过简单的用户提示,将大量物体加载到场景中,构建丰富的视觉场景。
这类智能体的目标是构建一个平台和一套工具,在大型人工智能模型(包括 GPT 系列模型和扩散图像模型)与渲染引擎之间提供高效接口。我们主要探索两个方向:
- 将大型模型整合到智能体基础设施的各种编辑器工具中,显著提高开发效率
- 在用户体验中控制渲染引擎:通过生成遵循用户指令的代码并在运行时编译,允许用户以任意方式编辑他们正在交互的虚拟现实 / 模拟场景,甚至引入新的智能体机制
为 XR 场景引入专注于该领域的人工智能副驾,将对 XR 创作者大有裨益 —— 创作者可以利用副驾完成繁琐任务(如提供简单资产或编写代码模板),从而将精力集中在创意构想上,并快速迭代想法。
此外,智能体还可以帮助用户交互式地修改环境,例如添加新资产、改变环境动态或构建新场景。创作者还可以指定这种运行时动态生成功能,使用户的体验保持新鲜感并持续演变。
5.5 知识与逻辑推理智能体(Knowledge and Logical Inference Agents)
推理和应用知识的能力是人类认知的一个显著特征,在逻辑推理、心理理论理解等复杂任务中尤为明显。基于知识进行推理,可确保人工智能的响应和动作与已知事实和逻辑原则保持一致。这种连贯性是维持人工智能系统(尤其是医疗诊断、法律分析等关键应用)可信度和可靠性的重要机制。以下将介绍整合知识与推理的智能体,它们分别针对智能和推理的特定方面。
5.5.1 知识智能体(Knowledge Agent)
知识智能体从两个方向对已获取的知识系统进行推理:隐性知识和显性知识。隐性知识通常是 GPT 系列(Brown et al., 2020; OpenAI, 2023)等大规模语言模型在海量文本数据训练后所蕴含的知识。这些模型能够生成看似具有理解能力的响应,因为它们会利用训练过程中隐性习得的模式和信息。相比之下,显性知识具有结构化特征,可直接查询,例如知识库或数据库中的信息 —— 传统上,这些信息通过引用可验证的外部资源来增强人工智能的推理能力。
尽管语言模型取得了诸多进展,但它们的隐性知识是静态的,会随着世界的发展而过时。这一局限性使得整合持续更新的显性知识源变得至关重要,以确保人工智能系统能够提供准确、及时的响应。隐性知识与显性知识的融合,使人工智能智能体能够更细致地理解知识,并能结合上下文应用知识,这与人类智能类似。这种整合对于构建以知识为核心的人工智能智能体至关重要 —— 这类智能体不仅拥有信息,还能理解、解释和运用信息,从而缩小广泛学习与深度知识之间的差距。这些智能体旨在灵活处理世界的动态信息,增强自身的鲁棒性和适应性。
5.5.2 逻辑智能体(Logic Agents)
通常而言,逻辑智能体是系统的一个组件,旨在应用逻辑推理处理数据或解决特定的逻辑推理任务。在 GPT-4 等大型基础模型的背景下,逻辑智能体指专门用于处理逻辑推理任务的组件或子模块。这些任务通常涉及理解和处理抽象概念、从给定前提推导结论,或解决需要结构化、逻辑化方法的问题。广义上,GPT-4 等基础模型通过海量文本数据训练,能够执行包括逻辑推理在内的多种任务,因此其逻辑推理能力已整合到整体架构中,通常并不存在独立的 “逻辑智能体”。尽管 GPT-4 等模型能够执行涉及逻辑的任务,但它们的运作方式与人类或传统基于逻辑的系统存在本质区别 —— 它们并不遵循形式化的逻辑规则,也没有对逻辑的显性理解,而是基于训练数据中习得的模式生成响应。因此,它们在逻辑任务中的表现可能令人印象深刻,但也可能存在不一致性,或受训练数据性质和模型设计固有局限性的影响。将独立逻辑子模块嵌入架构的一个示例是(Wang et al., 2023e),该研究通过将文本解析为逻辑片段,并在令牌嵌入中显式建模逻辑层次结构,修改了大型语言模型预训练过程中的令牌嵌入流程。
5.5.3 情感推理智能体(Agents for Emotional Reasoning)
情感理解和共情能力是许多人机交互场景中智能体的重要技能。例如,创建具有吸引力的对话智能体的一个重要目标,是让智能体表现出更强的情感和共情能力,同时最大限度地减少不合时宜或具有冒犯性的输出。为实现这一目标,我们发布了 “神经图像共情评论(NICE)数据集”(Chen et al., 2021),该数据集包含近两百万张图像、相应的人类生成评论以及一组人类情感标注;同时,我们还提供了一种新的预训练模型 ——“图像评论情感生成模型(MAGIC)”(Chen et al., 2021),该模型旨在基于捕捉风格和情感的语言表征,为图像生成评论,助力生成更具共情性、情感化、吸引力且符合社会规范的内容。实验结果表明,该方法在训练更具人类特征、更具吸引力的图像评论智能体方面是有效的。开发具有共情感知能力的智能体是交互式智能体的一个有前景的发展方向 —— 创建能够跨广泛群体和人群理解情感的智能体尤为重要,因为当前许多语言模型在情感理解和共情推理能力方面存在偏见。
5.5.4 神经符号智能体(Neuro-Symbolic Agents)
神经符号智能体基于神经元和符号的混合系统运作。解决以自然语言表述的问题是一项具有挑战性的任务,因为它需要显式捕捉输入中隐含的离散符号结构信息。然而,大多数通用神经序列模型并未显式捕捉此类结构信息,这限制了它们在这些任务上的性能。研究(Chen et al., 2020)提出了一种基于结构化神经表征智能体的新型编码器 - 解码器模型 ——TP-N2F 的编码器采用张量积表征(TPR)“绑定” 机制,将自然语言符号结构编码到向量空间中;解码器则利用 TPR “解绑” 机制,在符号空间中生成由关系元组表示的序列程序,每个关系元组包含一个关系(或操作)和多个参数。
像 GPT-4 这样的遵循指令的视觉 - 语言(VL)模型提供了灵活的接口,支持以零样本方式处理多种多模态任务。然而,基于完整图像的接口无法直接让用户 “指向” 并访问图像中的特定区域。这种能力不仅对支持基于参考的视觉 - 语言基准测试至关重要,对于需要精确图像内推理的实际应用也具有重要意义。在(Park et al., 2023b)中,我们构建了 “局部视觉常识模型”,允许用户指定(多个)区域作为输入。我们通过从大型语言模型(LLM)中采样局部常识知识来训练该模型:具体而言,我们向大型语言模型(LLM)提供由一组视觉 - 语言模型自动生成的全局文本图像描述和局部文本区域描述,以收集常识知识。该流程具有可扩展性且完全自动化,无需对齐的或人类编写的图像 - 文本对。通过单独训练一个筛选高质量示例的评判模型,我们发现,仅基于图像扩展的局部常识语料库进行训练,能够成功蒸馏现有的视觉 - 语言模型,使其支持基于参考的输入接口。零样本场景下的实证结果和人类评估表明,与传递生成的指代表达式的基准方法相比,我们的蒸馏方法能够得到推理更精确的视觉 - 语言模型。
5.6 大型语言模型与视觉语言模型智能体(LLMs and VLMs Agent)
多项研究利用大型语言模型(LLMs)作为智能体执行任务规划,并借助大型语言模型(LLMs)的万维网级领域知识和零样本规划能力,执行规划、推理等智能体化任务。近期机器人学研究也通过将自然语言指令分解为一系列子任务(形式可为自然语言或 Python 代码),再利用底层控制器执行这些子任务,从而借助大型语言模型(LLMs)实现任务规划)。此外,研究还整合了环境反馈以提升任务性能。另有多项研究表明,在大规模文本、图像和视频数据上训练的通用视觉对齐大型语言模型,可作为构建具象化、能在多种环境中行动的多模态智能体的基础。
7. 跨模态、跨领域与跨现实的 Agent AI
7.1 跨模态理解智能体(Agents for Cross-modal Understanding)
构建通用人工智能智能体的一大核心挑战在于,缺乏同时包含视觉、语言和智能体行为的大规模数据集。更普遍的情况是,智能体的训练数据往往是模态专属的。这导致当前大多数多模态系统采用多个冻结子模块的组合架构 —— 典型案例包括 Flamingo,这些模型均采用冻结的大语言模型(LLM)和冻结的视觉编码器。这些子模块分别在独立数据集上单独训练,随后通过训练适配层将视觉编码器的输出编码至大语言模型的嵌入空间。
要在智能体的跨模态理解领域取得进一步突破,使用冻结大语言模型和视觉编码器的策略可能需要调整。事实上,近期推出的视觉 - 语言模型 RT-2 在机器人领域具备动作执行能力,其研究表明:当针对机器人任务和视觉 - 语言任务联合微调视觉编码器与大语言模型时,模型性能得到了显著提升。
7.2 跨领域理解智能体(Agents for Cross-domain Understanding)
构建通用智能体的关键挑战之一,在于不同领域间存在显著的视觉特征差异和完全不同的动作空间。人类在熟悉特定领域的细节后,能够解读来自现实世界、视频游戏、机器人技术、医疗保健等不同来源的图像和视频;但现有大语言模型和视觉语言模型的训练数据与它们所应用的各类领域之间往往存在巨大差异。值得注意的是,当试图开发单一策略以有效学习跨领域的多种控制系统时,训练智能体模型预测特定动作会面临相当大的挑战。
当前,大多数相关研究在特定领域应用系统时,通常采用的方法是:以预训练基础模型为起点,然后针对每个特定领域微调一个独立模型。这种方法无法捕捉不同领域之间的共性,导致训练过程未能充分利用各领域的数据资源,反而仅使用了规模更小的领域专属数据集。
7.3 跨模态与跨现实的交互式智能体(Interactive Agent for Cross-modality and Cross-reality)
开发能够在不同现实场景中成功理解任务并执行任务的人工智能智能体,是一项持续面临的挑战 —— 不过近年来,该领域在图像和场景生成方面已取得一定进展。具体而言,由于现实世界和虚拟现实环境在视觉特征和物理规则上存在差异,智能体很难同时理解这两种环境。在跨现实场景中,“模拟到现实(Sim to Real)” 迁移是一个尤为重要的问题 —— 即如何将在模拟环境中训练的策略应用于现实世界数据,这将在下一节详细探讨。
7.4 模拟到现实迁移(Sim to Real Transfer)
模拟到现实迁移技术,指的是使在模拟环境中训练的模型能够部署到现实世界中运行的技术。具象化智能体(尤其是基于强化学习策略的智能体)通常在模拟环境中进行训练,但这些模拟环境无法完全复现现实世界的特征(例如干扰因素、光照条件、重力及其他物理属性)。由于模拟环境与现实世界存在这种差异,在模拟环境中训练的模型应用于现实世界时,往往难以达到理想性能 —— 这一问题被称为 “模拟到现实差距(sim-to-real gap)”。
为解决这一问题,可采用以下几种方法:
- 领域随机化(Domain Randomization):这是一种在训练模型时,随机改变模拟环境参数(如物体外观、传感器噪声、光学特性)的技术,目的是提前适应现实世界中的不确定性和变异性。例如,在训练基于强化学习的抓取技能时,引入物体形状的随机性,可使训练出的策略能够适应形状略有不同的物体。
- 领域适配(Domain Adaptation):领域适配(或领域迁移)是一种通过大量模拟图像和少量现实世界图像训练模型,以弥合模拟领域与现实世界领域之间差距的技术。在实际应用中,由于难以准备跨领域的配对图像,通常会采用非配对图像到图像的转换方法,例如 CycleGAN。针对强化学习,已存在多种增强版本(如 RL-CycleGAN);针对模仿学习,也有相关优化方法(如 RetinaGAN)。
- 模拟环境优化(Improvement of Simulation):高保真模拟是模拟到现实迁移的关键。这一目标部分通过系统识别技术实现— 该技术旨在确定模拟参数,以尽可能模仿现实世界环境。此外,在基于图像的强化学习中,使用照片级真实感模拟器也被证明是有效的。
模拟到现实迁移仍是具象化智能体研究中的核心挑战,相关方法仍在不断发展。理论研究与实证研究的结合,对于进一步推动这些技术的进步至关重要。
参考文献:
https://arxiv.org/abs/2401.03568
更多推荐

所有评论(0)