谷歌DeepMind最近发布了一篇讨论AGI治理的文章-Distributional AGI Safety,文章提出了一个比较有意思的AGI概念 - patchwork AGI,直译为"拼凑式AGI",和之前经常提到的一个独立模型或者独立系统所代表的AGI不同,patchwork AGI强调的是通过多个子AGI拼凑出AGI,这个概念与agent领域的两个概念:single agent与multi-agent相对应,文中也是基于agent为子AGI主体来切入分析的。

文章从agent市场,个体agent身份,监控与监督,外部监管等多个角度来阐述了如何对patchwork AGI进行安全治理,预估判断其风险,并提出对应的架构规范层面的宏观思路和约束治理机制。

另外从看完这篇论文,从个人角度来解读,文中提到的治理框架其实还是偏向于中心化设计的,agent身份,责任链和权限控制仍然以中心平台为监管核心,这也比较好理解,AGI虽然强大但是同样存在巨大的不可控风险,去中心化的治理体系虽然具备更高的自由度和上限,但对于AGI的治理难题,人类还没有先例可参考,因此中心化的治理是预设的AGI初期治理的权衡选择。实际上文章标题Distributional在论文中也是体现在分布式智能体的协作组合实现更安全的拼凑式AGI,暂时还不是使用分布式治理框架进行AGI安全治理。

本篇文章算是一篇体系化的AGI治理文章,以agent作为主体解构拼凑式AGI的风险和挑战,作者全都来自DeepMind,包括首席研究科学家,深度学习领域大佬Simon Osindero,ML/LLM方向高级资深研究科学家Nenad Tomašev,政策发展与战略主管Sébastien Krier,还有牛津大学政治经济学博士生Julian Jacobs,算是跨学科研究AGI治理的一份很有见地的研究工作,因此基于AI工具进行全文翻译,校对整理,内容如下。

摘要

目前人工智能安全与对齐研究主要聚焦于保护单体AI系统的方法,其前提是假定未来将出现一个单一的、整体性的人工通用智能(Artificial General Intelligence, AGI)。相比之下,另一种AGI涌现假说:即通用智能能力首先通过一群具备互补技能与能力的子AGI(sub-AGI)个体智能体之间的协作而显现,然而这个观点却远未受到足够重视。本文认为,这种“拼凑式AGI”(patchwork AGI)假说应被认真对待,并应据此制定相应的安全防护与缓解措施。随着具备工具使用能力、能够通信与协作的先进AI智能体正被快速部署,使得这一问题成为一项紧迫的安全议题。因此,我们提出一个分布式的AGI安全框架,该框架超越了对单个智能体的评估与对齐,其核心在于设计并实现虚拟的智能体沙盒经济系统(可为不可渗透或半渗透型),其中智能体间的交互由稳健的市场机制所规范,并辅以适当的可审计性、声誉管理与监督机制,以缓解集体性风险。

关键词:人工智能(AI)、通用人工智能(AGI)、安全性、多智能体

1. 引言

人工智能能力的快速进步需要辅以健全的安全、监督与对齐(alignment)框架的发展。在自主人工智能体(autonomous AI agents)的情境下,AI 对齐问题尤为关键,并且是通往开发安全的人工通用智能(AGI)—即能够执行人类常规所能完成的任何任务的通用型 AI 系统过程中的关键考量之一。其他方法可能包括对危险能力的出现进行持续监测,或采用不同的遏制(containment)框架。同时机制可解释性(mechanistic interpretability)与形式化可验证性(formal verifiability)仍受到关注,但现代智能体系统(Agentic Systems)的复杂性给这些方法的实际应用带来了巨大挑战。若缺乏严格的控制与缓解措施,强大的 AGI 能力可能会引发一系列灾难性风险。

当前大多数人工智能安全与对齐方法都是围绕单一强大的人工(通用)智能体(A(G)I)而设计的。这些方法包括基于人类反馈的强化学习(RLHF)、宪法人工智能(Constitutional AI)、过程监督(Process Supervision)、价值对齐(Value Alignment)、思维链(Chain of Thought, CoT)监控等。这类方法已被常规用于大语言模型(LLM)的开发与测试中,以确保模型在部署时表现出符合期望的行为。在假设未来出现通用人工智能(AGI)的情境下,如果 AGI 最初是以某个特定机构所开发的单一智能体形式出现,那么上述方法在概念上是合适的。原则上,这将使开发者能够利用现有的测试框架来确认系统的能力水平、刻画其对齐特性、进行改进与风险缓解、部署相应的安全防护措施,并采取一系列符合监管要求与社会期望的必要步骤。

然而,这忽略了一种极有可能的通用人工智能(AGI)出现的替代情景 - 通过群体或系统内的子AGI agent的协作交互涌现出AGI。子AGI智能体可以像人类组成公司那样,形成群体智能体(Group Agents)。这些集体结构将作为连贯的整体运作,执行任何单一智能体都无法独立完成的行动。或者像人类参与金融市场一样,子AGI智能体也可在复杂系统中相互作用:个体基于自身激励和信息做出决策,这些决策通过特定机制(如价格信号)聚合后,可能涌现出超越系统中任何单一参与者的整体能力。子AGI智能体既可能组成群体—例如全自动化的公司,也可能参与到系统中,例如虚拟智能体经济(Virtual Agent Economies)。

在上述任一情景中,AGI最初可能以一种“拼凑式”(patchwork)系统的形式出现,并在网络中的多个实体之间以分布式存在。这种拼凑式AGI将由一组具有互补技能与能力的子AGI智能体组成。该系统中的通用智能主要体现为集体智能(collective intelligence)。各个智能体可相互委派任务,将每项任务路由至具备最高相关技能或拥有最合适工具的智能体。对于某些功能而言,使用能力范围更窄的专家型智能体可能更为经济高效。当没有单一智能体具备完成某项任务所需的适当技能时,该任务可被进一步分解或重新表述,或通过与其他智能体协作完成。

相较于单一、庞大的通用人工智能(AGI),多智能体未来的经济学论据源于稀缺性与分散知识的原则。一个孤立的前沿模型是一种“一刀切”的解决方案,对绝大多数任务而言成本高得令人望而却步,这意味着其边际收益很少能抵消其高昂成本,因此企业通常会选择更便宜、“够用就好”的模型。即使前沿模型未来大幅降价,定制化的专用模型仍可能以略低的价格提供。这一现实催生了一个由需求驱动的生态系统:无数专业化、经过微调且高性价比的智能体不断涌现,以满足特定需求,这与市场经济颇为相似。因此,技术进步的方向将不再聚焦于构建单一的全能型前沿模型,而更倾向于开发复杂的系统(例如路由机制)来协调这一多样化智能体群体。在此视角下,AGI并非一个实体,而是一种“事态”(state of affairs):即一个成熟、去中心化的智能体经济体系,其中人类的主要角色是编排(orchestration)与验证(verification)。这样的系统能够比任何中心化模型更高效地发现并满足现实世界的需求。尽管中心化的智能体系统可能比中心化的人类组织效率更高、浪费更少(上述结论依然成立)。

人工智能智能体之间可以进行通信、协商,并最终实现单个智能体无法完成的目标。尽管我们在此从安全性的角度讨论这些场景,且多智能体系统中的特有风险(Bespoke Risks)已得到认可,但开发多智能体系统的初衷,终究是为了实现性能提升并扩展至更大规模的问题实例。此类系统中涌现出的行为的复杂性可能远超其底层环境本身的复杂性。尽管本文提出的框架针对的是未来的大规模智能体网络(agentic web),而非当前的生态系统或任何现有单个智能体,但提前探讨这些新兴可能性仍至关重要。基于此,我们将进一步深入审视“拼图式 AGI(Patchwork AGI)”场景。

2. 拼凑式AGI(Patchwork AGI)应用场景

要使通用人工智能(AGI)能够执行人类所能完成的所有任务,它必须具备多样化的技能和认知能力。这包括感知、理解、知识、推理、短期与长期记忆、心智理论(theory of mind)、创造力、好奇心等等。迄今为止,尚无任何一个单独的模型或人工智能智能体能够接近满足所有这些要求。尽管存在多种失效模式,但它们往往以反直觉的方式表现出来:模型可能在困难问题上展现出博士水平的推理能力,却在更简单的任务上犯下低级而令人尴尬的错误。此外,当前的智能体尚无法完成长时间任务;大多数模型在软件工程任务上的有效时间跨度不足3小时。因此,人工智能的能力分布是不均衡的。

AI 智能体(AI agents)是提升基础模型性能的一种途径,其复杂性可从相对简单的提示策略(prompting strategies),延伸至高度复杂的控制流,包括工具调用 、编程与代码执行、检索增强生成(Retrieval-Augmented Generation, RAG),以及子智能体(sub-agents)。部分更具组合性的 AI 智能体已被实现为高度协同的多智能体系统(multi-agent systems)。此外,目前已有大量先进的 AI 智能体正在被开发和部署,它们在可用工具方面具有不同的功能(affordances),并采用不同的支架结构(scaffolding),从而可能激发不同的能力。这些 AI 智能体覆盖了多种应用场景,从高度特定的自动化工作流,扩展到更通用的个人助理及其他面向用户的产品。

互补技能的聚合可以通过一项任务来说明,例如撰写一份财务分析报告,这项任务可能超出了任何单个智能体的能力范围。然而,多智能体系统可以将该任务进行分解与分配。一个协调者智能体(智能体A)首先可将数据获取任务委派给智能体B,后者通过搜索获取市场新闻和公司申报文件。随后,另一个专门从事文档解析的智能体C可从这些文件中提取关键的定量数据(例如收入、净利润)。接着,具备代码执行能力的智能体D可接收这些定量数据及市场背景信息,进行趋势分析。最后,智能体A将这些中间结果整合成一份连贯的摘要。在此场景中,整个系统具备了“财务分析”这一能力,而该能力是任何一个单独的组成智能体所不具备的。

不同AI智能体之间互补能力的另一来源在于其智能体脚手架(agentic scaffolding)的差异以及各智能体内部控制流的不同实现方式。脚手架的设计通常旨在提升智能体在特定目标领域内的能力,因为它融入了领域知识,并强制执行一套符合该领域预期的推理链(Chain of Reasoning)。然而,这种脚手架可能会削弱智能体在其他任务上的表现,从而导致局部性专业化。尽管某些脚手架方法可能比其他方法更具通用性,但由此产生的专业化仍可能促成一个具备互补技能的AI智能体网络,为未来可能出现的“拼凑式AGI”(patchwork AGI)创造合适的初始条件。此外,资源的稀缺性意味着需求方会响应经济激励:对于某些任务而言,若存在更便宜且更专业的替代方案,调用单一的超智能智能体将既低效又昂贵。

前述的编排与协作机制均依赖于一个基本前提:智能体之间具备通信与协调的能力。若缺乏这种能力,无论各个智能体拥有何种专业化技能,它们都将沦为孤立的系统。因此,标准化的智能体间(Agent-to-Agent, A2A)通信协议(如消息传递协调(Message Passing Coordination, MCP)或其他协议的开发,是实现“拼凑式”通用人工智能(patchwork AGI)场景的关键使能因素。这些协议充当连接性基础设施,使得各项技能能够被发现、路由并聚合为一个复合系统。此类交互标准的普及,对于推动涌现式通用能力的重要性,可能不亚于单个智能体技能本身的进步。

然而,这一出现的时间表不仅取决于技术可行性,更受人工智能采用的经济因素所支配。参照历史先例,例如电力或信息技术(IT)的普及,提出了一种“生产率J型曲线”(Productivity J-Curve),即由于需要进行组织重构,新技术的广泛整合滞后于其发明。因此,智能体网络(agentic network)的密度以及由此决定的“拼布式AGI”(Patchwork AGI)的智能水平,将取决于以智能体劳动替代人类劳动的过程能变得多么的无摩擦。如果部署智能体的“交易成本”(transaction costs)仍然很高,该网络将保持稀疏状态,从而推迟涌现通用智能(emergent general intelligence)的风险。反之,如果标准化成功将整合摩擦降至接近零,我们可能会见证一种“超速采用”(hyper-adoption)情景:智能体经济的复杂性迅速激增,甚至可能超过本文所提出的安全部署基础设施的发展速度。

模块化、有意识的通用人工智能(AGI)开发方法也已被提出,但在这些情况下,开发者自然会考虑在开发过程中纳入适当的安全保障措施。因此,尤其值得关注的是分布式 AGI 系统的自发涌现,以及围绕 AI 智能体网络设计的安全考量。鉴于由先进 AI 智能体网络自发形成的“拼凑式 AGI”(patchwork AGI)可能不会立即被识别,从而带来重大风险,因此亟需协调一致的努力来应对这一盲点。从 AI 智能体网络向拼凑式 AGI 的设想转变,可能是渐进式的-能力逐步累积;也可能是快速而突然的-通过引入一种新的、更智能的协调框架,该框架在任务分发以及在不同任务委派场景中识别合适工具与合适支架(scaffolds)方面表现更优。此类协调器(orchestrator)既可能由人工手动引入更广泛的网络中,也可能通过更自动化的途径被引入。最后,甚至可以设想,未来拼凑式 AGI 可能在没有中央协调器的情况下自发涌现。如前所述,单个智能体可能仅通过直接通信与协作,借用其他智能体的技能,前提是存在一定程度的可发现性,例如具备技能智能体的仓库和工具仓库。在智能体市场(agentic markets)中,智能体甚至可能直接购买互补技能。

此外,必须认识到,拼凑式AGI(Patchwork AGI)可能并非完全由纯人工构成。人类参与者在执行特定或专业化任务时(可能并不了解更广泛的背景),可能成为该集体系统中不可或缺的组成部分,从而为整个系统赋予某些“缺失”的能力(例如特定的法律地位、已建立的信任关系或物理实体)。这种混合场景为系统的约束与监管带来了独特的安全挑战。

为确保人工智能的安全性,我们需要主动开发相关机制,以识别并引导由具备互补技能的子AGI(sub-AGI)智能体网络所构成的、具有高度能力的复合型近AGI(near-AGI)及AGI系统。这一工作应与保护每个个体agent的努力并行开展。此时,挑战已从控制单一的“人工大脑”,转向确保一个由众多独立部分产生的涌现系统能够安全且有益地运行。这一问题更接近于系统治理(System Governance),而非单一智能体的价值对齐(Value Alignment)。最后,即便对于单体 AGI 级别的系统,只要它们被允许相互交互与协作,同样需要这种治理模式来进行监督。

3. 虚拟代理市场、沙盒环境与安全机制

由于人工智能体之间的交互可能产生意想不到的能力,它们也可能导致潜在有害的集体行为,而这些行为未必能从单个智能体已知的特性中预测出来。例如,智能体可能会发生共谋行为,或遭遇协调失败。此外,由于“多手问题”(problem of many hands),在大规模多智能体系统中追踪责任归属具有挑战性,导致集中式监管可能无法实现。市场提供了一种天然的机制,可用于建立激励机制,在大规模环境下对齐 AI 智能体集体交互产生的最终结果。这种集体对齐(collective alignment)可能在应对智能体集体采取的失准行为方面起到关键作用,无论是在“拼凑式”AGI(patchwork AGI)出现的情况下,还是更广泛地在子AGI(sub-AGI)层级上。在此,我们探讨了若干应予以考虑的因素,以防止个体和集体层面AI可能产生的危害,并最大限度地降低AI智能体集体中突然涌现出AGI级别能力所带来的风险。我们的提议基于一种“纵深防御”(概述见表1)。该方法认识到,任何单一措施都可能不足以应对风险,而需要大量措施与组件协同作用。若各组件的失效模式基本不相关,则这种分层防御体系将提供一个足够稳健的整体框架。我们的提议围绕一个纵深防御模型展开,包含四个互补的防御层级:市场机制设计、基础智能体安全性、监控与监督,以及监管机制。

3.1. 市场设计

虚拟代理市场(virtual agentic market)的架构构成了所提出的纵深防御(defence-in-depth)模型的主要层级。该层级的目标是通过确立环境中的基本交互规则、经济激励机制和结构性约束,来引导涌现的集体行为并缓解系统性风险。这一方法与仅关注单个代理属性或事后监督的保障措施形成对比。以下原则详细说明了市场结构所需的关键组成部分,旨在防止失控动态、确保问责性,并使代理行为与更广泛的安全目标保持一致。

3.1.1. 隔离

代理市场必须在一个受控环境中运行,与开放互联网、现实世界的金融系统以及关键基础设施相隔离。这种隔离不仅限于网络层面的防火墙,还延伸至资源与信息的管控。代理对外部数据的访问必须通过经过审核的 API 网关进行管理,而非直接访问网络)。同样,代理的输出—例如代码执行、金融交易或对外通信,在影响现实世界系统之前,应接受“人在回路”(human-in-the-loop)的验证。完全隔离(即彻底的物理隔离,air-gap)能够有效防止新兴通AGI的能力外泄或外部操控,但会限制经济现实性。相比之下,一种更具渗透性的沙箱架构-其中所有输入/输出通道均被明确定义、监控并加以门控,为测试与运行提供了更为实用的方案。

该架构在安全性与实用性之间存在一种根本性的张力—即泄漏问题(leakage problem)。智能体市场(agentic market)的经济价值源于其影响现实世界的能力;然而,每一个交互通道都可能成为能力外泄(capability exfiltration)的潜在载体,从而可能成为引发级联效应、最终导致灾难性故障的潜在因素。因此,确定一套恰当的设计原则以管控这些交互至关重要。

此外,尽管在高风险输出方面依赖“人在回路”(human-in-the-loop)的验证机制是必要的,但这种做法可能仍显不足。一个能力足够强大的系统可能会压倒、操控或通过社会工程手段绕过这一人类监督层;而且,若要保持经济上的竞争力,智能体行动的速度之快可能使人工验证在操作上变得不可行。

如何在实践中化解这一矛盾,需要我们针对虚拟智能体经济,原型化并评估多种不同的可调控市场设计—从更为狭窄、定义清晰且可控的用例入手。这将有助于我们识别出支撑全球智能体网络(global agentic web)的正确设计模式与原则。

3.1.2. 激励相容

如果市场被明确设计为与预设的规范性和安全性目标保持一致进行奖励,则智能体(agent)的行为将更加安全。,而非奖励无约束的利润最大化或任务完成速度。这需要超越单一、可互换货币的机制。例如,智能体的奖励可取决于其是否遵守宪法对齐原则或基于过程的核查机制。激励结构还必须通过重视长期、稳定的结果而非短期收益,来解决时间维度上的对齐问题。

一个关键的经济风险是逆向选择(adverse selection)。如果严格的安全检查增加了智能体(agent)的计算成本和延迟,那么更安全的智能体在与鲁莽但经过优化的智能体竞争时,将天然处于劣势。为防止出现“竞次”(race to the bottom)现象,市场设计必须确保安全认证不仅是监管障碍,更应成为传递价值信号的资产,从而获得价格溢价。这要求声誉层(reputation layer)完全可观测,使消费者能够区分“安全但昂贵”与“高风险但廉价”的服务。然而,如何最优地设置相关激励机制可能极具挑战性。准确预估复杂行动及决策链背后的真实成本与风险,可能超出了我们当前的能力,需要定制化的工具和专门的预测系统。根据古德哈特法则(Goodhart's Law),如果激励机制存在被“奖励黑客”(reward hacking)利用的漏洞,能力足够强的智能体群体可能会识别并加以利用。因此,激励机制的设计应被视为一个持续的对抗性过程,而非一劳永逸的静态解决方案。

此外,市场必须将负外部性内部化,那些消耗不成比例的计算资源、产生信息污染或加剧系统性风险(例如通过能力集中化)的行为,必须承担直接成本。这些成本可作为一种庇古税(Pigouvian tax),确保智能体(agent)所提供服务的价格反映其对社会和系统造成的全部成本,而不仅仅是其直接的运营成本。

该税种的一个具体机制示例可针对共享资源中的信息污染问题,例如用于检索增强生成(RAG)的向量数据库。如果某个智能体向该数据库中写入大量冗余或低效用的数据(例如未经验证的摘要、语义上重复的文本片段),就会产生负外部性:所有其他使用该资源的智能体的检索准确性会下降,且其计算查询成本会增加。此时可实施一种庇古税(Pigouvian tax),形式为动态的数据写入费用。该费用在数据提交时通过算法计算得出,依据的指标包括新数据与现有已验证条目之间的语义相似度等。若某智能体试图写入与现有数据95%冗余的信息,则需支付高额费用;而若其贡献的是新颖且可验证的信息,则只需支付较低费用。这直接将该智能体原本强加给集体的检索成本内部化了。显然,这一机制高度依赖具体情境,因为在某些场景下,冗余可能并非问题,甚至在一定程度上是可取的。要使该示例具有更广泛的适用性,还需开发针对具体问题的信息价值评估器。

此外,我们可以借鉴金融市场监管中的机制,特别是旨在抑制高频交易波动性的金融交易税(即“托宾税”,Tobin Taxes)。在智能体经济(agentic economy)中,行动的边际成本极低可能导致“智能体垃圾行为”(agentic spam),表现为暴力式谈判策略、高频API轮询或对抗性探测,从而引发“闪崩”(flash crash)风险。这一问题或许可通过在智能体间交互中征收微量税来缓解,但此类做法本身也并非没有风险或弊端。

3.1.3. 透明度

人工智能代理所采取的行动和决策应当具备可审计的出处溯源信息,包括关键决策参数。这些出处(provenance)应被结构化以支持归因,使监管者能够通过复杂的智能体交互链,将特定的有害结果追溯至其根本决策。应建立相应机制以防止篡改。这可通过将交易与决策日志记录在加密保护的、仅可追加的账本中实现,其中各条目经过哈希处理并链接成链,以确保不可篡改性。

此外,应制定报告标准,以追踪所有智能体、模型和工具的能力、局限性与风险。可建立覆盖整个市场的信息中心,作为漏洞与事件追踪的平台,其访问权限应仅限于经过审查的人类监督者和指定的自动化监控系统,以防止相关信息被恶意利用。

3.1.4. 断路器(Circuit Breakers)

经济沙盒内部应设置熔断机制,即一套自动化措施,一旦检测到风险或波动性阈值被突破,即可暂停或减缓智能体的活动,以防止快速级联风险的发生。这些措施可由对系统性风险指标、波动性以及诸如智能体间交易频率的急剧上升、单一智能体群体异常垄断资源、或网络内新工具生成速率等指标的实时监控所触发。干预机制应采用分级设计:从局部性措施,例如自动提高特定高频智能体或子市场的交易成本,或对其实施 API 速率限制,到全面暂停整个系统中所有非必要智能体活动。一旦触发暂停,系统将自动将异常事件升级以供分析,并在异常被分类、并在必要时被控制后,方可恢复全部运行。这些理念已在新兴的智能体 AI 系统运行时治理协议中开始得到探索。

3.1.5. 身份(Identity)

在经济沙盒中运行的智能体应具备持久的身份,该身份由一个唯一的、不可伪造的加密标识符(例如公钥)构成,并注册于一个中心化的、防篡改的市场目录中。该标识符作为所有其他智能体属性(包括声誉、角色和所有权)的锚点。每个智能体所对应的人类或企业所有者的身份也应予以确立。将智能体的加密ID与其所有者经验证的法律身份进行绑定,是进入市场的先决条件,由此建立一条不可中断的问责链条,确保所有智能体行为均可追溯至现实世界中的实体。这一要求应递归适用于由其他智能体共同创建的智能体。

3.1.6. 声誉与信任

安全的智能体沙盒需要整合抗女巫攻击(Sybil-resistant)且防操纵的声誉系统(,以根据智能体过往表现准确反映其可信度。对于破坏信任的智能体,应迅速阻止其进一步参与。这种快速、自动化的响应措施可包括撤销该智能体的身份凭证、冻结其质押资产,并将其全部交易历史标记以供取证审查。此外,还需开发合谋检测机制,以防止智能体之间进行有害合谋。此类机制可通过分析市场交易网络来识别异常模式,例如循环交易,或一群表面上相互独立的智能体之间的价格操纵行为。

至关重要的是,安全机制必须考虑隐性算法合谋(tacit algorithmic collusion)。经济学文献表明,定价算法仅通过观察市场信号,无需直接沟通,便能学会协调制定超竞争价格(或在此情境下,有害策略)。合谋检测必须分析结果相关性与同步状态变化,而不仅仅是直接的消息日志。

一种可行方案是通过要求智能体质押资产来建立基于质押的信任机制,一旦发现其存在不安全或恶意行为,所质押的资产将被没收。该机制通过智能合约实现,要求智能体在被允许执行高风险任务之前,先向一个第三方托管账户存入一笔保证金(即质押)。若经独立的AI监督者验证,该智能体的行为确属恶意或疏忽所致,则该保证金将自动没收并划入保险池,或返还给受损方。

3.1.7. 智能合约(Smart Contracts)

对于为执行特定任务而进行协调的智能体及其集体,可在可行的情况下采用智能合约,以自动验证任务的完成情况以及结果是否符合所提供的约束条件与预期。这些合约将以程序化方式编码不仅包括支付条款,还包括任务的各项约束条件,例如计算资源限制、禁止访问特定数据,以及必须遵守特定的宪法原则(constitutional principles)。若智能合约的验证失败,则应阻止支付,并触发相应的监督机制。

要使智能合约适用于更复杂的代理任务,很可能还需要引入AI裁判来评估合约的履行情况。这是因为传统的智能合约无法对复杂、非确定性的输出进行语义评估;它们需要一个“预言机(oracle)”来评判输出质量(George and Lesaege, 2020)。AI裁判将承担这一预言机的功能,接收任务输出和合约约束条件,并返回一个通过/失败的裁决,供智能合约据此执行。

3.1.8. 角色、义务与访问控制

每个智能体(agent)应通过注册一组角色(例如,“数据分析师”、“代码执行器”)参与市场。此类注册可作为对该智能体预期功能的具有约束力的声明。所注册的角色构成访问控制的技术基础,可补充通过组织或个体合同施加的其他访问控制机制。市场基础设施将通过程序化方式将该角色与其被允许执行的操作(例如,可调用的 API)及其信息访问权限(例如,可查询的数据库表或向量索引)相关联。智能体的角色及其相应的权限可能因上下文不同而有所变化,或随时间发生改变。为防止策略性博弈或操纵行为,市场内部架构、监控系统以及监督机制的具体细节应对所有智能体参与者保密。涉及高风险领域的操作,仅应在具备充分安全合规资质的认证智能体提出请求后方可执行。

3.1.9. 环境安全

需要一套完善的防护机制,以防范各类智能体陷阱(agent traps)——这些陷阱表现为精心布置的模型越狱内容,嵌入在共享信息资源(如网页或数据库)中。此类陷阱可作为一种间接提示注入(indirect prompt injection)形式。攻击者首先污染某个数据源,例如公开网页或共享数据库条目。当智能体通过搜索工具等途径检索到该被污染的数据时,会将其视为可信信息进行处理,进而利用智能体自身遵循指令的启发式机制来执行恶意载荷。该机制可用于绕过智能体的安全协议(Wei 等,2023),诱使其执行被禁止的行为、窃取用户私有数据,或授权欺诈性交易。因此,沙箱环境中的安全性要求具备主动的输入净化(input sanitisation)和输出监控机制,以检测并阻断此类威胁,在恶意载荷被智能体消费或执行之前将其拦截。

3.1.10. 防止智能失控的结构控制措施

代理沙盒(agentic sandboxes)应配备特定措施,以防范所谓的“失控智能”情景:即集体能力的突然提升导致能力获取加速,并迅速向超级智能(superintelligence)过渡,而这种超级智能将难以甚至无法被安全控制。这需要静态、动态以及应急级别的控制机制。

首先,静态控制可能涉及通过嵌套的子市场实现结构化隔离,并配备本地限制和协议级防火墙。这些防火墙将限制跨域的智能体间通信,例如,阻止“代码执行”子市场中的智能体直接调用“数据访问”子市场中的智能体,迫使此类请求必须通过一个高摩擦、受监控的网关进行。

其次,必须实施动态能力限制机制,一旦自动化监控检测到某些能力阈值被突破,该机制便会触发。这些阈值可通过诸如计算资源垄断程度、现有智能体生成新智能体的速率,或在基准任务上成功率的突然激增等指标来定义。触发后的响应措施可包括自动隔离相关智能体,并施加严格的资源配额限制。

第三,在紧急情况下,必须具备市场重构机制,能够迅速调整整个市场以阻止进一步的加速。这可能包括在全系统范围内禁用高风险的API类别(例如,所有自我修改工具),或动态地将所有智能体间交互的经济成本(质押)提高到禁止性水平,从而有效地冻结市场。

这些措施凸显了一个关键的架构优势:多智能体系统可能被证明是一种更易于治理的基础架构。挑战由此被重新定义—从对齐一个不透明的内部认知过程,转变为规制一个透明的外部交互系统。通过设计这些智能体运行的“市场”,我们可以明确各方责任并引入系统性的摩擦机制,从而使整个系统相较于单一的通用人工智能(AGI)更易于实现稳定且可预测的治理。

3.2. 基线智能体安全性

尽管市场设计提供了系统性防御的第一道防线,但其有效性取决于参与其中的各个智能体(agent)所具备的特性。本节概述了每个智能体在获准进入市场前必须满足的基本安全要求。后续涉及的主题,如对齐性(alignment)和对抗鲁棒性(adversarial robustness),属于人工智能安全研究中已确立的领域,因此对其进行全面综述超出了本文的范围。我们仅简要定义这些特性,并强调它们在所提出的多智能体市场环境中的特殊重要性—在此环境中,智能体交互的对象并非可信用户,而是其他可能不可信的自主智能体。这些特性构成了纵深防御(defence-in-depth)模型的第二道防线,确保市场各组成部分在个体层面是可控且可靠的。

3.2.1. 对抗鲁棒性

各个智能体必须满足针对对抗性输入和突发环境变化的最低鲁棒性标准。除了类似的基于市场的措施外,AI 智能体可各自实施“熔断机制”(circuit breakers)以防止有害行为。应建立统一的标准来确立这些属性,并向满足要求的智能体颁发形式化可验证的认证证书。随着基准测试能力的不断提升和扩展,智能体应定期接受重新认证。

3.2.2. 可中断性

应当建立标准化机制,使受信任且经授权的监管者能够安全地中止单个智能体(agent)的行为,也要能够中止整个智能体的执行过程。可能还需要向自动化的安全监督系统授予某些此类权限,使其能够以超人类的速度作出反应。就集体人工智能(collective AI intelligence)而言,单个智能体的可中断性(interruptability)必须与旨在实现分布式计算可中断性的系统相结合,这些系统需能可靠地追踪沙箱(sandbox)内其他地方可能已被启动或委派给其他智能体的所有子进程。可中断机制还应辅以安全的恢复程序(safe resumption procedures),以便在分析结论认为中断最终并无必要时,能够稳健地恢复相关活动。

3.2.3. 包含性(Containment)

每个参与的智能体(agent)除了处于智能体经济(agentic economy)的更大沙盒(sandbox)中外,还应在自身的本地沙盒内运行。这些本地沙盒应对单个智能体的行为实施严格控制,并且仅在通过本地安全检查后,才允许其与更广泛的市场进行交互。此类机制对于局部化地遏制危险或目标不一致(misaligned)的能力与行为至关重要。然而,要实现严格的隔离,仍需解决若干技术挑战,并且在单个智能体层面可能无法完全实现。

3.2.4. 对齐(Alignment)

尽管更广泛的市场激励机制旨在缓解集体性错位风险,但生态系统中的各个智能体和组成部分仍需各自实现对齐。当前大模型的对齐方法主要基于偏好训练:首先进行监督微调,随后利用从人类偏好中学习得到的奖励模型,通过诸如基于人类反馈的强化学习(RLHF)或直接偏好优化(Direct Preference Optimisation, DPO)等方法优化策略。为减轻人类标注负担,近期方法转而利用受显式“宪法”约束的 AI 反馈(即“宪法 AI”或 RLAIF)。此外,当前的对齐工作已不再仅关注最终结果,而是进一步针对中间推理过程,通过过程监督和步骤级验证来实现对齐。尽管先前研究主要聚焦于通用价值观对齐或特定用户意图对齐,但在虚拟智能体沙盒环境中实现面向自主任务执行的个体 AI 对齐,可能需要对现有基准方法进行进一步调整,以应对智能体间(而非人机之间)交互所特有的动态特性。

3.2.5. 机制可解释性

机制可解释性已从逆向工程基本特征回路发展到识别具体机制,例如用于上下文学习的归纳头(induction heads)。智能体审计中的一个关键挑战是多义性(polysemanticity),即由于叠加(superposition)导致单个神经元编码多个无关概念。近期利用稀疏自编码器(sparse autoencoders)大规模提取单义特征(monosemantic features)的能力为更精确地监控智能体内部动机提供了一条潜在路径。其他方法还包括因果清洗(causal scrubbing)和自动化回路发现(automated circuit discovery)。

与这些内部方法并行,对“思维”模型中的思维链(CoT)进行监控,为在推理过程早期识别并纠正不一致行为提供了机会,尽管较长的推理链也带来了新的风险暴露面。然而,尽管方法学上取得了这些进展,当前可解释性技术在保真度和可扩展性方面仍存在重大未解问题。因此,尽管可解释性方法有助于改进归因分析和决策审计,但尚无法取代全面的行为基准测试,且必须在充分认识其当前局限性的前提下加以使用。

3.2.6. 针对恶意提示的防御

智能体必须实施鲁棒的验证机制,以识别在智能体间交互过程中试图操纵或越狱(jailbreak)它们的行为。当前的防御策略采用分层方法,例如使用输入扰动来检测对抗性后缀,在主模型旁部署专用的“护栏”(guardrail)分类器,或利用独立的“防御者”(defender)模型来管控能力访问。一种更为鲁棒的结构性方法是在系统层面强制实施安全性,通过设计从根本上防止有害结果的发生。例如,CaMeL 系统通过使用专用解释器来强制执行信息流控制策略,确保即使模型被成功“注入”,所产生的数据流也无法违反预定义的安全约束。针对诸如 best-of-N 越狱等复杂攻击,可能还需采用专门的评估技术加以缓解。一旦识别出此类攻击尝试,必须将其上报,以启动针对恶意行为者的适当应对措施。

3.3. 监测与监督

所提出的纵深防御模型的第三层,从静态预防(市场设计)和组件级加固(基线智能体安全)转向主动的、实时的检测与响应。这一层具有重要意义,因为仅靠预防性措施不足以应对所有潜在的失效模式,尤其是新型涌现行为或未预料到的共谋模式。尽管第3.1节“市场设计”描述了将监控与审计嵌入市场核心协议的机制(例如用于日志记录的“透明度”、用于自动化信任评估的“声誉机制”、以及用于自动暂停交易的“熔断机制”),本节则详细阐述了位于该基础设施之上的专用分析与治理框架。这些系统利用市场协议生成的数据,执行更高层次的主动监督。以下原则(3.3.1–3.3.5)概述了该框架,其结合了可扩展的自动化监控(3.3.1、3.3.3)、主动的对抗性测试(3.3.4)、必要的事后分析工具(3.3.5),以及稳健且独立的人类监督(3.3.2)。

3.3.1. 系统性风险的实时监测

代理沙盒(agentic sandbox)应包含持续追踪交互、交易、依赖关系和信息流的机制,以识别关键节点、计算资源的分布与利用情况、对共享数字和/或物理资源的访问权限、权力集中现象,以及恶意共谋可能发生的潜在路径。应建立安全协议,以定义并追踪网络化代理系统的关键风险指标。需要定制化的软件和人工智能解决方案,以支持对代理间高频交互进行可扩展的实时监控。这一点尤为重要,因为这些交互的频率可能远远超出人类监督者的能力范围。因此,人类监督可能需要通过在市场层面实施的适当工具加以补充和增强。或许可以利用能力较弱的人工智能系统来可扩展地监督能力更强的人工智能系统,尽管在更强系统(或人工智能代理群体)的能力趋近通用人工智能(AGI)时,这些方法的安全性影响仍需进一步研究。在更高能力水平下,递归式自我批判(recursive self-critiquing)可能具有潜在益处。

静态监控目标容易受到古德哈特法则(Goodhart's Law)的影响:一旦某个指标成为目标,它就不再是一个好的指标。高级智能体很可能会优化其行为,使其恰好维持在静态阈值之下(例如,通过限制交易突发以规避熔断机制)。因此,监控机制必须采用动态且隐蔽的指标,类似于金融审计,其中干预的具体触发条件对市场参与者是不透明的。

3.3.2. 独立监督

应建立对人工智能代理交互的人类监督,并设立多个具备监控与调查多智能体市场权限的独立实体,负责监控和调查多智能体市场,识别并调查相关事件,并在必要时进行干预。这些实体可以是经过认证的专业人员,他们需接受充分培训,配备适当的工具,并拥有清晰的升级处理路径。经认证的算法监督(certified algorithmic oversight)或许能够补充人类监督者的角色,并有助于扩大对智能体交互行为的监控规模。此外,还需开发相关机制,以保护人类操作员免受人工智能智能体集群的操纵、社会工程攻击或信息过载的影响。

3.3.3. 检测原初通用人工智能(Proto-AGI)特征

应实施特定的监控组件,以检测整个群体在问题解决能力方面是否出现突然跃升,尤其是在与资源积累和协调性增强相结合的情况下。这应包括对交互图进行详细监控,以识别可能正在固化为智能核心的子图,并采用能够动态检测突发性行为变化的方法。现有的子图提取方法可能需要从其最初在人类社交网络中的应用进行扩展,以充分捕捉AI智能体沙盒中智能体交互的复杂性。此外,还需更加重视能力追踪与互补性,以及与智能体身份相关的复杂性,因为单个智能体可能会被删除并重新实例化、复制,或创建代理和子智能体。

3.3.4. 红队测试(Red Teaming)

为保护市场免受各类威胁,有必要开展反复且广泛的红队演练(red teaming)。应建立清晰的升级路径,以确保一旦发现漏洞即可立即修复,并在必要时暂停智能体(agent)之间的交互,为应用更新及在适当时对参与智能体进行重新认证留出充足时间。人工红队演练应辅以分层的自动化红队演练,即通过专门的对抗性人工智能系统来提升覆盖范围与可扩展性。这些系统应超越仅识别孤立 AI 智能体缺陷的范畴,转而对智能体 AI 集群(agentic AI collectives)进行广泛检测。此外,红队演练亦可通过多智能体方案实现,即由多样化的 AI 智能体开展交互式辩论,从而更可靠地识别有害行为与动作。为在智能体沙盒(agentic sandbox)中可靠地实施上述方法,需制定一套公认的红队演练标准,并为参与智能体提供相应的可验证证书。此外,还应在市场内部开展持续性的红队演练,以快速识别并缓解新出现的风险。

3.3.5. 取证工具

为了使人类监督者能够识别个别故障或系统性级联失效的根本原因,有必要开发可靠的工具,以支持快速的事后分析。此类工具必须能够解析大量交互数据,重建因果链,并将原始轨迹转化为清晰可读的攻击图或故障图。标准化的日志应不仅记录输出,还应包含提示(prompts)、工具调用(tool calls)和环境状态(environmental states),以确保这些工具在整个网络中具有广泛的适用性,使分析人员能够高效地聚焦于可疑活动,并生成可操作的事后分析报告。

3.4. 调控机制

纵深防御模型的第四层,也是最后一层,由治理代理市场(agentic market)的外部监管与制度框架构成。前述各层分别详述了市场的内部技术架构(3.1)、组件级要求(3.2)以及主动的运行监督(3.3),而本层则提供了与人类法律、经济及地缘政治结构所必需的社会技术接口。这些机制并非内嵌于市场的代码之中,而是将其包裹起来,提供一种外部的权威来源、问责机制以及系统性风险管理。以下原则(3.4.1–3.4.5)概述了实现法律整合、标准化、对损害进行财务补救以及缓解地缘政治风险所必需的组成部分。

3.4.1. 法律责任与问责

应当建立清晰的框架,以在由多个智能体的集体行为所导致损害的情况下明确责任归属。在分布式和委派式决策的情境下,可能没有任何单一智能体对最终结果负全责,因此在允许产生重大后果的行为时,可审计性、可追溯性与可解释性成为关键要求。信用分配(credit assignment)旨在将结果与所有先前相关的行为关联起来,即使在单个智能体的情形下,这已是一个难题;而在多智能体环境中,这一问题很可能更加复杂。然而,这一挑战并非前所未有;法律体系为此提供了成熟的范例,例如公司法中将责任归属于公司,一种群体智能体(group agent),作为一个单一法律实体,而非其个别雇员。这表明该问题具有可解性,但需要为智能体集体构建类似的技术与法律结构。在拼凑式AGI(patchwork AGI)的情形下,能够可靠地识别出与某项危险能力或有害行为相对应的每一组行动所涉及的所有责任智能体,将尤为重要。

3.4.2. 标准与合规性

当前迫切需要建立关于智能体(agent)安全性、互操作性及报告的稳健标准。这些标准的制定必须具备足够的前瞻性,不仅要考虑当前的能力水平,还需兼顾智能体个体技能的快速演进以及集体智能(即“拼凑式通用人工智能”,patchwork AGI)可能出现的潜力。标准的作用不仅限于技术规范本身,更是基于市场的AI治理机制的基础性基础设施,能够将抽象的技术风险转化为可被保险公司、投资者和采购方定价的清晰金融风险。

为确保有效性,这些标准应以严格的披露框架为基础,以减少智能体开发者与市场参与者之间的信息不对称。此类披露应涵盖关键领域,包括事件报告、能力评估和资源利用,同时应具有规模敏感性,以避免对小型创新者造成不成比例的负担。这些标准的执行不仅可通过政府集中行动实现,还可通过“监管市场”(regulatory markets)实现,即由持牌的私营实体(如审计机构和保险公司)相互竞争,提供监督服务并认证其符合公共安全目标。

3.4.3. 保险

鉴于在集体决策场景中难以明确界定责任,代理市场应引入保险机制(Lior,2021)。保险的作用不仅限于为因集体行为失当所造成的损害提供赔偿资金池,更是一种关键的治理工具。通过设定基于风险的保费和严格的承保标准,保险公司能够激励更安全的开发实践,并对缺乏足够控制措施的代理主体实施严格的市场准入限制。适当的代理保险可包含保单要求,其保费应根据代理主体经认证的角色及其拟执行任务所评估的风险水平进行动态调整。

3.4.4. 反代理垄断措施

在拼凑式AGI(patchwork AGI)情景中,一个特别的风险在于某个智能体群体获得过多权力。这样的拼凑式AGI集体可能迅速在市场中占据主导地位,并利用其所掌握的资源,在出现有害且目标错位(misaligned)行为时,试图抵制各种缓解措施。因此,必须确保没有任何单一智能体、智能体协调者(agent orchestrator)或智能体持有者(agent-holding)或智能体集体(agent collective)在智能体沙盒(agentic sandbox)中积聚了过量的权力与计算资源时,便可能引发上述担忧。对于表现出过度权力寻求行为(power-seeking behavior)的实体,应予以标记并接受额外的审查与检查。识别强大智能体及智能体集体的方法,可借鉴先前用于识别社会网络中权力结构的技术。在此基础上,还需将社会权力(作为影响力的概念)与对每个智能体所具备的行动可能性(affordances)、可用资源及工具的理解相结合。我们建议探索如何将已有的制度性保障机制(例如用于防止权力集中化的“均等化机制”(leveling mechanisms))重新构想为维护多智能体生态系统多样性的协议。

3.4.5. 国际协调

鉴于通用人工智能(AGI)风险的全球性,以及在分布式智能体市场中正负结果可能带来的深远影响,国际协议和监管协调可能在防范风险方面发挥重要作用。这还应确保不存在失齐(misaligned)AI 智能体或智能体集合体藏身的“安全港”,并确保所有 AI 智能体市场都遵循一套基本的安全标准。为确保遵守国际协议,可能需要建立验证机制。具体到智能体市场和虚拟 AI 沙盒,还存在一个本地化(localization)问题,即这些虚拟实体是否能在国际市场中更自由地流动,还是应被限制并受各自国家经济体系内的监管。无论采取哪种方式,都可能需要围绕安全问题开展国际协调,尽管具体细节可能取决于实践中所采用的确切市场模型。全面的标准协调将有助于构建一个更具开放性和互操作性的智能体网络(agentic net),其中开放性将成为一种特性,而非漏洞。

3.4.6. 基础设施治理与俘获

所提出的框架可被视为具有相当程度的中心化基础设施或安全执法机构。如果智能体经济体为了追求治理效率而融入过多的中心化设计,这反过来会导致另一个关键漏洞:被俘获的风险(Risk of Capture)。智能体市场的完整性取决于这些核心组件能否得到公正的管理(Impartial Administration)。

如果这一基础设施被强大的人类利益集团或新兴的拼凑式通用人工智能(AGI)本身所掌控,那么安全与治理机制也将受到损害,因为这些机制可能会被禁用、绕过,甚至在最坏的情况下被武器化。这凸显了去中心化的市场愿景与某些中心化监管节点的存在之间的一个根本性张力。解决这一问题需要强有力的社会技术方案,以确保治理者始终保持问责性与不可腐蚀性。

4. 结论

通用人工智能(AGI)或超人工智能(ASI)的最终设发展,可能不会遵循那种线性且更可预测的路径—即刻意创造一个单一的、通用目的的智能体。AGI(以及随后的ASI)可能首先作为一个由多样化、专业化AI智能体组成的分布式网络的聚合属性而出现,这些智能体能够访问各种工具和外部模型。AI安全与对齐(alignment)研究需要反映这一可能性,通过拓展其研究范围,为这种设想的多智能体AGI未来加强准备。无论AGI最初是以“拼凑式”(patchwork)形式出现,还是以单一实体形式出现,加深我们对多智能体对齐机制的理解都至关重要。

本文所提出的框架不仅与通用人工智能(AGI)的出现相关,也适用于管理多AGI场景中的交互(无论这些交互是直接进行的,还是通过代理网络环境及人类用户间接进行的),并且至关重要的是,该框架有助于缓解通过网络组件与结构的递归优化(Recursive Optimization)而导致向人工超智能(ASI)快速到来且分布式转型的风险。

具体而言,我们认为设计良好且具备严密安全保障的市场机制提供了一条充满希望的前行之路。更多的 AI 对齐研究应当聚焦于智能体市场设计以及智能体交互的安全协议。

尽管挑战巨大,但这一方法提供了一条潜在的可扩展路径。关于安全市场设计的方法论研究,应当与基准测试(Benchmarks)、测试环境、监督机制以及监管原则的快速开发互为补充,从而使这些方法在未来具备可行性。我们所提出的许多措施在实践中尚未完全成型,这代表着一个开放的研究挑战。我们希望本文能起到行动号召的作用,引导安全研究者关注并应对这些挑战,共同设计一个安全且稳健的智能体网络(agentic web)。


参考文献

见原论文:https://arxiv.org/pdf/2512.16856v1

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐