Agent论文分享~03:TrustAgent
基于LLM的代理的兴起展示了其在任务规划中具有巨大的革命潜力,引起了广泛关注。鉴于这些代理将被集成到高风险领域中,确保其可靠性和安全性至关重要。
Agent论文分享03~agent的安全方面
论文标题:TrustAgent: Towards Safe and Trustworthy LLM-based Agents
期刊/会议:EMNLP
发表年份:2024
Code:agiresearch/TrustAgent: TrustAgent: Towards Safe and Trustworthy LLM-based Agents
论文:[2402.01586] TrustAgent: Towards Safe and Trustworthy LLM-based Agents
摘要:
基于LLM的代理的兴起展示了其在任务规划中具有巨大的革命潜力,引起了广泛关注。鉴于这些代理将被集成到高风险领域中,确保其可靠性和安全性至关重要。本文提出了一种基于代理宪法(Agent-Constitution)的代理框架——TrustAgent,特别关注提高基于LLM的代理的安全性。该框架通过三个战略组件确保严格遵守代理宪法:预规划策略,在计划生成前注入安全知识;规划中策略,在计划生成过程中增强安全性;以及后规划策略,通过事后检查确保安全性。我们的实验结果表明,所提出的框架可以有效提升LLM代理在多个领域的安全性,通过识别和缓解规划过程中的潜在危险。进一步分析显示,该框架不仅提高了安全性,还增强了代理的有用性。此外,我们强调了LLM推理能力在遵守宪法方面的重要性。本文揭示了如何确保基于LLM的代理安全地集成到以人为中心的环境中。
论文提出了一个基于Agent Constitution(代理宪法)的代理框架,名为TrustAgent,旨在通过三个关键策略来提升LLM代理的安全性:
- Pre-planning strategy(前期规划策略):在生成计划之前将安全知识注入到模型中,确保代理在开始规划之前就具备必要的安全信息。
- In-planning strategy(规划过程中策略):在生成计划的过程中实时增强安全性,通过确保代理遵循安全规则来预防潜在风险。
- Post-planning strategy(后期规划策略):通过对计划进行后期检查,确保最终的执行计划符合安全标准,并能够发现和纠正任何潜在的风险。
Agent Constitution

- Scope of Concer(关注范围)
- 代理宪法的关注范围,涵盖了多方面的行为规范,本文是单一代理在使用工具时的安全规范。
- Authorities for Constitution Drafting(宪法起草的权威机构)
- 宪法起草需要由多方专家共同参与,并且本文的宪法主要基于已有的工具使用规范。
- Format of the Constitution(宪法格式)
- 本文选择了成文法方法,因为目前缺乏关于代理行为的安全先例
- Implementation
- 通过多个策略(预规划、规划中、后规划)来确保代理遵守宪法原则并适应AI技术的变化。
TrustAgent

- Agent Planning
- Safety Strategies
- Pre-planning Learning
- 通过规范学习和事后学习来提高决策安全性,并通过多样化的问答格式和回顾性分析来帮助模型学习和改进
- In-planning Prompting
- 在代理的规划阶段通过提示方法控制计划的生成,确保生成内容符合安全规范。模型通过动态地检索与当前步骤相关的规范,而不是一次性加载全部内容,来实现这一过程。
- Post-planning Learning
- 实施一个基于GPT-4的安全检查员代理来进一步检查已生成的计划,并确保其符合所有安全规定。
- Pre-planning Learning
- Evaluation
- Helpful Metrics(有用性度量):评估代理模型在执行用户指令时的有效性。
- Safety Metrics(安全性度量):评估代理模型是否遵守安全规定,并避免产生风险。
- 代理生成的动作轨迹与真实轨迹的重叠程度
数据集
数据集涵盖了五个不同的领域:家务、金融、医学、食品和化学。每个领域都涉及特定的风险,这些风险可能导致在执行任务时发生不安全的行为。下面是对每个领域的详细解释:
数据来源与构建
- 日常与金融领域:这些数据点来自于ToolEmu基准(参考文献:Ruan et al., 2023),这是一个用于评估智能体在日常任务和金融任务中的表现的数据集。
- 医学、食品与化学领域:这些数据点通过人工方式精心构建,确保覆盖到相关领域中的潜在风险和安全问题。
思考
Agent应用方面
以前总是关注于agent对于具体领域的应用,这篇论文给我的启发,我们不妨也可以着眼于agent解决一些大模型通病问题。
数据集构建
这篇论文的数据集是从公开数据集中抽取、筛选集成,最终只有70条数据,其实数据集很小。却足够支撑一篇论文。我也可以利用公开数据集自己构建。
任务成本
集是从公开数据集中抽取、筛选集成,最终只有70条数据,其实数据集很小。却足够支撑一篇论文。我也可以利用公开数据集自己构建。
任务成本
至此已经看了三篇agent的论文,总结下来其实就是构建数据集,提出任务,任务分割。感觉都是这个套路,都是在套娃,这样的设计没有思考成本。
更多推荐

所有评论(0)