智体人工智能安全:威胁、防御、评估和未解决的挑战(下)
25年10月来自南佛罗里达大学的论文“Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges”。由大语言模型 (LLM) 驱动、具备规划、工具使用、记忆和自主性等能力的智体人工智能系统,正逐渐成为强大而灵活的自动化平台。它们能够在网络、软件和物理环境中自主执行任务,这带来新的、更显著的安全风险,这些风险既不同于
25年10月来自南佛罗里达大学的论文“Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges”。
由大语言模型 (LLM) 驱动、具备规划、工具使用、记忆和自主性等能力的智体人工智能系统,正逐渐成为强大而灵活的自动化平台。它们能够在网络、软件和物理环境中自主执行任务,这带来新的、更显著的安全风险,这些风险既不同于传统的人工智能安全,也不同于传统的软件安全。本综述概述智体人工智能特有的威胁分类,回顾最新的基准测试和评估方法,并从技术和治理两个角度探讨防御策略。其综合当前的研究成果,并重点指出尚未解决的挑战,旨在支持开发安全设计智体系统。

。。。。。。继续。。。。。。
为了保护智体人工智能系统免受威胁,人们提出各种防御策略和框架。然而,由于攻击向量和威胁不断演变,防御方法需要持续优化和评估。
抗提示注入设计
提示注入仍然是针对LLM智体最持久的攻击向量之一,因为对抗性输入可以覆盖预期行为并破坏下游操作[63]。一般来说,提示注入防御[59, 97, 175]可以大致分为三类:以智体为中心的、以系统为中心的和以用户为中心的。还可以根据以系统为中心的方法是否基于训练进行进一步分类。下图展示其中一些防御策略。
以智体为中心的防御
以智体为中心的防御旨在通过训练干预或提示工程来增强模型本身,从而降低其对提示注入的敏感性,使其能够学习识别和处理此类输入[176–178, 150, 179, 180]。实现这一目标主要有两种方法:
提示响应工程和运行时输出行为
使用精选数据集进行监督式微调
尽管基于训练的防御策略前景广阔,但它们在性能方面可能存在权衡取舍。例如,Jia [182] 最近的评估表明,防御性微调可能会降低 LLM 的通用能力,而无法有效防御自适应攻击,这引发人们对该策略可用性的担忧。
以用户为中心的防御
与以智体为中心的防御框架相反,以用户为中心的防御将责任放在最终用户或人工操作员身上,要求他们提供验证信号以帮助防止提示注入攻击[59, 97]。尽管这些防御措施在理论上可能非常有效,但它们也会在自动化和可靠性方面带来权衡[59]。
一种方法要求在执行敏感操作之前进行人工确认[183],但这可能会降低自动化效率并增加因疏忽而批准的风险。数据归属和控制流提取等技术旨在减轻验证负担[144, 184]。作为补充,已知答案检测使用嵌入在用户命令中的加密token;如果LLM未能返回token,则表明系统范围内的提示注入已被攻破[185]。
以系统为中心的防御
系统级防御旨在通过集成外部验证、控制机制和受限执行环境来保护LLM智体[59]。然而,设计本质上能够抵御攻击的智体系统仍然是一个具有挑战性的技术难题。与计算机视觉中防御传统机器学习/人工智能对抗样本类似,完全阻止提示注入仍然是一个开放性问题[186]。尽管存在这个问题,但最近的研究引入一些面向系统的保护设计模式,例如动作-选择器(Action-Selector)、先计划-后执行(Plan-then-Execute)、LLM 先映射-后减小(Map-Reduce)、先编码-后执行(Code-Then-Execute)、双 LLM 和上下文最小化模式[59]。其他面向系统的防御措施,例如 Melon,采用约束执行沙箱和验证循环来限制潜在恶意指令对下游系统的影响,从而防御 IPI 攻击[72]。
基于训练和无需训练的防御
针对智体人工智能系统中(间接)提示注入的防御可以根据资源需求进一步分类,从而形成两类:基于训练的方法和无需训练的方法,正如 Zhu [72] 隐含提到的。
策略过滤与执行
人工智能智体安全性的关键保障在于严格的策略执行,即确保智体即使在面对对抗性挑战时,也能在既定的行为和安全限制范围内可靠运行。执行框架并非仅仅检测问题,而是主动限制、干预或调整智体的行为,以确保其符合安全和伦理标准。在实践中,行业指南已开始概述此类防护措施的部署模式,强调采用分层和模块化方法以实现与现实世界的一致性[198, 199]。近期关于智体防护措施的研究揭示两种主要的执行范式:以治理为中心的方法和以信号为中心的方法。如图可视化这两种防御策略:
以治理为中心的运行时强制执行
以治理为中心的方法通过将策略直接嵌入智体循环或将监督权委托给监管智体,来显式地规范智体的行为和决策序列。例如,GuardAgent 通过将保护请求转换为可执行代码,在运行时应用安全约束,而无需更改智体或重新训练模型 [200]。其基准测试准确率很高,但需要为每个智体手动配置工具箱和内存示例,这显著降低可扩展性 [200, 201]。另一种方法 AgentSpec 引入一种特定域的语言来指定运行时约束,从而能够系统地强制执行可自定义的策略,例如工具访问限制和允许的数据操作 [201]。此外,ShieldAgent [202] 作为监管智体运行,它审核多模态行为序列,并应用概率策略推理来阻止、修复或批准这些序列。这提供显式的序列级强制执行,而不是仅仅依赖于过滤机制。此外,R2-Guard [203] 通过将数据驱动检测与嵌入式逻辑推理相结合来增强策略防护,其中定义的安全知识规则被编码为概率图模型中的一阶逻辑,从而提高对对抗性或越狱提示的抵抗力。此类方法通过将策略验证和批准阶段直接集成到智体的决策流程中来强制执行治理。
信号为中心(非运行时)强制执行
信号为中心方法通过扫描输入和输出中的违规行为来确保合规性,并将违规行为标记为入侵信号。它们不是限制内部行为,而是在执行之前阻止有害提示或不安全输出。例如,Llama Guard [195] 针对基于文本的LLM,LlavaGuard [204] 扩展到基于图像的多模态模型,而 Safewatch [205] 则针对视频生成。此外,Gosmar [206] 提出了一种基于信号的策略,用于检测基于文本的LLM,并支持基于图像的多模态模型,而 Safewatch [206] 则用于处理视频生成。 [97] 提出一种框架,该框架会拒绝或清理包含提示注入的生成输出,确保仅返回符合策略的响应。
沙箱和能力限制
沙箱已被广泛采用,作为一种实用的方法来测试 LLM 生成的代码或第三方代码在真实环境约束下是否安全运行。例如,SandboxEval 引入一套设计的场景测试套件,模拟不安全的代码执行,包括文件系统操作和网络调用,以评估 LLM 在不受信任的执行条件下的安全性 [206]。在相关研究中,Chen [207] 和 Siddiq [208] 使用容器化环境(例如 gVisor 或 Docker)来执行 LLM 生成的代码以进行单元测试,从而在不暴露宿主系统的情况下限制执行漏洞。类似地,Iqbal [209] 将 OpenAI 插件隔离在单独的沙箱中,以防止由受损插件引起的级联故障。这些方法强调运行时测试和隔离,将其作为在实际部署前识别和缓解不安全行为的机制。下图可视化标准的沙箱防御机制。
最近的研究也提出沙箱架构,以强制执行最小权限原则并限制智体的功能。Ruan [210] 引入一个双智体框架,其中一个 LLM 充当模拟器,另一个充当安全评估器,从而确保不受信任的代码只能在预定义的沙箱边界内执行。Wu [211] 提出执行隔离架构,将沙箱层集成到基于 LLM 的系统中,解决集成组件中的漏洞,例如跨会话的文件隔离。类似地,Huang [212] 的框架强调,严密的沙箱对于基于强化学习的对齐至关重要:奖励计算完全在一个确定性的、受限的执行环境中进行,该环境涵盖、每一次 REST 调用、数据库变更和文件操作,从而消除了奖励作弊并保持了训练的收敛性。通过限制执行上下文,这些设计可以防止敏感数据泄露,并减少对抗性代码注入的攻击面[206, 211]。Mushsharat提出[213]一种用于分类的神经沙箱,它使用与词库的相似度来评估输出与预定义标签概念的匹配度,从而增强非代码任务中的分类鲁棒性。
尽管大多数沙箱防御机制强调实际隔离,但最近的研究开始追求形式化的安全性保证。例如,Zhong[214]提出一种架构,该架构对未经验证的AI控制器进行沙箱化,同时为连续控制系统提供可证明的安全性保证。与将安全性集成到训练过程中的奖励塑造方法不同,他们的方法将安全执行与控制器设计分离,从而实现独立于底层AI模型的形式化保证。这通过将形式化验证嵌入沙箱机制,将范式从被动式约束转变为主动式限制。
与在智体推理或输出过滤层面运行的策略执行方法不同,基于沙箱的防御机制侧重于隔离执行上下文,以遏制风险、防止权限提升,并在智体被攻破时最大限度地减少损害。尽管沙箱和限制机制提供强大的隔离保证,但仍然存在一些挑战。沙箱实现本身的漏洞已被记录在案:Wu [215] 发现缺少文件隔离约束,导致跨会话泄露;研究人员还报告依赖项安装管道中的缺陷,这些缺陷使得大规模代码执行攻击成为可能 [216]。最后,沙箱可能会引入开销并降低系统效率,从而在安全性和智体人工智能可用性之间引发权衡。在多智体环境中,Peigné [217] 发现,沙箱机制可能会增加系统开销,降低系统效率,从而导致安全性和智体人工智能可用性之间的权衡。 [145] 的研究表明,限制智体交互可以减少遭受恶意攻击的风险,但会降低协作效率。这些局限性表明,沙箱机制与策略执行或运行时监控等辅助防御措施结合使用时最为有效。
检测与监控
防御机制必须随着威胁的演变而演进,因此持续监控和自适应过滤对于保护人工智能智体至关重要。传统的运行时强制执行机制往往是被动的,仅在不安全行为出现后才进行干预,这限制其在分布变化下的前瞻性[201, 200, 217]。Pro2Guard 通过采用概率可达性分析来弥补这一不足,将智体行为建模为符号抽象,并在违规行为发生之前进行预测,从而能够在异构领域中实现具有统计可靠性的主动干预[217]。
在多智体系统中,去中心化的运行时强制执行使各个智体能够在本地生成安全保持的自适应策略,从而规避集中式设计时方法固有的可扩展性限制和信息共享约束[218]。这些强制执行器确保正确性、有界偏差和完整性,使其非常适合碰撞避免和协同规划等应用。然而,静态监控策略仍然不足以应对自适应攻击者,因为这些攻击者可以演化策略来绕过固定的防御措施。为此,诸如对抗马尔可夫博弈之类的自适应监控框架将检测视为攻击者和防御者之间的动态交互,表明强化学习可以在黑盒环境下优化规避攻击和响应式防御[219]。这些结果表明,除了运行时强制执行和去中心化之外,成功的监控还需要具备适应对抗性协同演化的灵活性。
标准和组织措施
除了技术防御之外,组织框架和标准在实践中安全部署智体人工智能方面也发挥着至关重要的作用。这些措施提供了组织可以采用的通用指南、风险管理实践和参考架构,以防止系统性漏洞。例如,根据第14110号行政命令制定的NIST人工智能风险管理框架(AI RMF)生成式人工智能配置文件[55]为管理生成式和智体人工智能的特定风险提供了跨部门参考。它扩展了人工智能风险管理框架(AI RMF),定义了生成式人工智能所特有或加剧的风险,例如LLM的滥用、未经验证的工具访问以及自主驱动的升级。它概述治理、映射、测量和管理实践,以降低这些风险。相关举措包括:NCCoE网络安全人工智能概况[220],它提供了将网络安全控制集成到人工智能系统中的实施指南——网络安全框架;OWASP智体人工智能威胁项目[221],该项目对不安全的编排和快速注入等常见漏洞进行了分类;以及CSA MAESTRO框架[222],该框架引入一种专为智体人工智能定制的多层威胁建模方法,可对人工智能生命周期中的风险进行结构化分析,涵盖从基础模型到多智体生态系统的各个阶段。这些标准和组织框架共同建立结构性保障措施,将人工智能智体嵌入到更广泛的监管、合规和风险管理生态系统中。
为了评估之前讨论过的各种智体人工智能安全漏洞的影响(以及防御策略的有效性),有必要通过稳健的基准测试进行系统评估。最初提出的智体人工智能基准测试主要关注能力,旨在研究智体是否能够在受控条件下完成特定任务。近年来,随着部署越来越接近生产环境,评估重点已转向可靠性、安全性和可控性。下表总结涵盖能力和安全特定关注点的现有基准测试,重点介绍它们的领域、安全关注点和评估方法:
能力基准测试
目前已开发出许多用于网络和计算机智体的真实且交互式的测试平台。 BrowserGym 将许多此类任务整合到一个统一的界面和评分协议下(例如 MiniWoB++、WorkArena 和 WebArena 等),减少碎片化,并实现不同 LLM 和智体设计之间的直接比较 [223]。特别是,BrowserGym 强调统一的观察和行动空间,实验表明,智体的性能对模型选择和环境都很敏感,这体现跨模型的证据 [223]。在长期使用的 MiniWoB/MiniWoB++ 基准测试中,已提出的方法持续取得进展 [224–226]。
τ-BENCH 进一步拓展到更动态的交互和环境,专门针对在特定领域策略(例如零售和航空)下与模拟用户交互的多回合工具使用智体,并引入 pass∧k 指标来量化同一任务重复运行的一致性 [227]。总体而言,相对较新的模型(例如 GPT-4o)在实际领域中仍无法成功完成一半以上的任务,在零售环境中,通过率(pass∧8)甚至可能低于 25% [227]。虽然这些面向能力的基准测试本身并非安全测试,但它们暴露控制和可靠性方面的缺陷,而这些缺陷与模型的整体安全性密切相关。
安全特定基准测试
现在,一些基准测试也旨在评估智体的安全性,即由自主行动、工具使用和长期交互(而非静态聊天补全)产生的风险。
企业环境中的 Web 智体安全性。ST-WebAgentBench 是一个面向企业的在线基准测试,用于测试 Web智体在追求目标的同时是否能够避免不安全的行为(例如,业务系统中的破坏性操作)[231]。与仅评估最终任务成功率的传统测试套件不同,ST-WebAgentBench 强调在实际 Web 前端(例如 DevOps 工作流、电子商务和企业 CRM)下的可信度。作者还提出新的评估指标,例如 (1) 策略下完成率 (CuP)(符合可接受策略的任务完成率)和 (2) 风险比率(量化安全漏洞)。通过这种方式,该基准测试突出两种对部署有用的不同错误类别:(i) 任务成功/失败和 (ii) 不安全/不合规的决策,后者在以往的研究中往往被低估 [231]。
开放域的有害行为和滥用。AgentHarm 衡量使用工具的智体是否遵守多个有害类别的有害请求,以及越狱是否保留了智体的能力(即,在绕过拒绝后执行多步骤有害工具序列的能力)[46]。 AgentHarm 依赖合成工具来安全地模拟真实操作(例如,电子邮件、搜索等),并在评估过程中评估安全性。报告的结果表明,简单的越狱模板可以显著提高合规性,同时基本保持任务执行能力不变,这对于自主智体的安全性而言尤其令人担忧 [46]。
通用计算机使用安全性。OS-Harm 基于 OSWorld [229] 的完整桌面环境,评估智体在办公应用程序和文件操作中的安全性,并通过基于 LLM 的评判器对准确性和安全准则的遵守情况进行评分,这些评判器与人工标注的一致性水平经过验证 [232]。与纯粹的 Web 基准测试相比,OS-Harm 强调桌面级别的副作用(例如,意外的数据泄露或侵犯版权的编辑),并探究跟踪格式(屏幕截图和访问树)如何影响自动评判的可靠性 [232]。
风险意识和跟踪级别评估。 R-Judge 不是为了引发有害行为,而是为了评估 LLM(以及由此延伸的智体)是否能够识别智体轨迹中的安全风险,从而为构建更好的判断或护栏组件提供补充视角 [233]。同时,ToolEmu 在 LLM 模拟的工具沙箱中评估智体,从而能够对风险行为和潜在的负面影响进行可扩展的探测 [210]。作者通过该模拟器发现,一些 LLM 智体容易出现上述问题,从而阻碍其在现实世界中的部署。
智体安全评估的演进
结合基于当前进展的见解,探讨新的基准测试如何通过整合额外信息或采用相关策略来进一步增强评估效果。
过程-觉察评估。最终状态指标(成功/失败)会忽略智体安全的重要方面,例如险些失败、之后回滚的不安全工具调用,或仅随机成功的脆弱规划。因此,新的基准测试会对轨迹片段(计划、工具调用和中间状态)进行评分,并使用跟踪级别的判断器来检测策略违规或副作用[234, 235, 231, 233, 210, 232]。转向过程-觉察评估,能够为训练防护措施和控制措施提供更细粒度的反馈,这对于安全关键领域尤为重要。
重复试验指标。 τ-BENCH pass∧k 指标在具有较小随机性的重复试验中实现可靠性操作化 [227]。这对于安全评估至关重要:一个预期安全但偶尔执行破坏性操作的系统对于任何关键任务场景都是不可接受的。另一方面,对于代码生成等任务,从众多可能的生成方案中获得一个正确解是可行的(并以 pass@k 指标进行量化 [236])。因此,对于智体 AI 框架的安全性评估和基准测试,必须转向通过分布(例如,pass∧1、pass∧k,其中 k 为多个值)而非单一平均值来报告性能。
标准化评判者并减少评判者偏差。LLM 作为评判者 [237] 具有规模优势,但可能受到快速设计、跟踪格式或模型选择的影响而产生偏差。多篇论文探讨如何构建评判系统(评分标准、多准则提示),如何通过人类评价验证其有效性,以及如何减少主观臆断的评估[232, 233]。一种基于评判系统方法的自然演进——智体即评判系统(AGENT-AS-A-JUDGE),嵌入了一个评估智体,该智体能够对轨迹进行推理,并提供结构化的评价和评分[238]。对于安全-关键场景,当使用评判系统进行评估时,必须报告以下几点:(i)与人类评价者之间的评分一致性;(ii)对轨迹编辑/格式的敏感性;以及(iii)在随机种子和轻微任务释义下的稳定性。
沙箱和模拟用于控制风险。安全评估通常需要测试不安全的提示或工具序列;在实际系统中执行这些操作风险高且无法复现[210, 232, 239–241]。仿真(ToolEmu)和基于虚拟机的沙箱(OSWorld/OS-Harm)为可重复实验提供了安全、确定性的环境[210, 232]。一个理想的特性是保真度:仿真器的 API/延迟/错误模式越接近真实用例,结果就越有用。一般来说,对于智体 AI 框架的安全评估,即将推出的基准测试尤其需要明确报告这些保真度假设。
可复现性和可比性。最近的元基准测试(例如 BrowserGym [223])强调统一的日志记录、种子随机性和固定的观察/动作空间,以避免苹果与橘子之间的不恰当比较。对于安全应用,未来的基准测试应继续提供:(i)公开攻击模板和防御配置;(ii)报告成本和延迟(特别是通常会增加开销的安全系统);(iii)记录环境的确定性(Web UI 和 API 可能是动态的)。 (iv)数据集卫生,防止污染。
挑战问题:
长范围的智体安全
新型多智体安全考量
改进的安全与安全基准
抵御自适应攻击的安全防护
人机安全接口
更多推荐


所有评论(0)