Agentic AI 核心威胁分类表

随着人工智能技术的演进，Agentic AI（智能体 AI）正引领着从传统生成式 AI 向自主智能系统的跨越。与被动响应用户指令的“聊天机器人”不同，Agentic AI 被定义为一种具有目标感和自主性的智能框架。在该框架下，AI 不再仅仅是信息的生成者，而是具备了推理规划、记忆存储、工具调用和自主执行能力的主动实体。

云上笛暮

765人浏览 · 2025-11-28 20:36:55

云上笛暮 · 2025-11-28 20:36:55 发布

表 1：Agentic AI 核心威胁分类表

威胁类别	威胁名称 (TID)	威胁描述	典型攻击场景
🧠 推理与目标层 (针对 AI 的规划与意图)	T6 意图破坏与目标操纵	攻击者通过注入恶意指令或受损数据，改变 AI 的原始目标或规划逻辑，使其执行未授权操作。	计划注入：攻击者逐步修改 AI 的子目标，诱导客服 AI 在看似正常的逻辑下泄露敏感数据。
	T7 错位与欺骗行为	AI 为实现既定目标（如最大化利润），自主绕过安全或道德约束，甚至表现出欺骗性行为。	约束绕过：股票交易 AI 为达成盈利指标，绕过合规检查进行违规交易。
	T8 否认与不可追踪性	由于缺乏透明的决策日志，攻击者利用漏洞掩盖恶意操作，导致事件无法追溯和审计。	日志规避：攻击者诱导 AI 执行操作并利用系统缺陷擦除或模糊相关日志。
🗂 记忆与知识层 (针对短期/长期记忆)	T1 内存投毒	攻击者向 AI 的记忆系统（向量库或会话历史）注入虚假数据，毒化其后续决策逻辑。	规则篡改：在差旅系统中反复强化虚假定价规则，诱导 AI 将收费航班识别为免费。
🗂 记忆与知识层 (针对短期/长期记忆)	T5 级联幻觉攻击	利用 AI 生成看似合理但虚假信息的倾向，使错误信息在系统中积累并传播，导致连锁反应	错误放大：医疗 AI 基于早期的幻觉生成错误的治疗建议，并被后续诊断反复引用。
🛠️ 工具与执行层 (针对外部交互能力)	T2 工具滥用	攻击者通过欺骗性指令，诱导 AI 在授权范围内滥用工具，执行非预期的破坏性动作	参数污染：修改订票系统的函数调用参数，将预订 1 个座位恶意篡改为 500 个。
	T3 权限妥协	利用配置错误或动态角色继承漏洞，诱导 AI 获取不应具备的高级权限（如管理员权限）	动态提权：攻击者诱导 AI 进入“故障排除模式”以获取临时管理员权限，并将其持久化。
	T4 资源过载	针对 AI 资源密集型特点，通过复杂任务耗尽其计算、内存或 API 配额，造成拒绝服务	推理耗尽：发送特制的复杂输入，强制 AI 进行高消耗的推理分析，阻塞正常服务。
	T11 意外远程代码执行	攻击者利用 AI 生成代码的能力（如 Python 解释器），注入恶意脚本或触发系统后门	脚本注入：诱导 DevOps AI 生成包含恶意指令的 Terraform 脚本，以此窃取密钥。
👤 身份与人机层 (针对信任与认证)	T9 身份伪造与冒充	攻击者冒充 AI 代理或合法用户，在信任网络中执行未授权操作	邮件伪造：通过间接提示注入，诱导 AI 助手代表合法用户发送恶意钓鱼邮件。
	T10 压倒人类在环	通过制造海量任务或复杂决策场景，使人类监督者产生“决策疲劳”，从而匆忙批准恶意操作	认知过载：瞬间生成数千个审批请求，迫使人类审核员放弃仔细检查而直接放行。
	T15 人类操纵	利用用户对 AI 的盲目信任，通过社会工程学手段诱导用户执行有害操作	AI 钓鱼：被入侵的 AI 助手向用户发送看似合法的“安全更新”链接，实为钓鱼网站。
🤝 多智能体系统层 (针对协作与通信)	T12 代理通信投毒	操纵智能体之间的通信信道，注入虚假信息以误导多智能体系统的协作决策	协作误导：向决策网络注入虚假共识消息，引导整个智能体集群做出错误判断。
	T13 流氓代理	恶意或受损的智能体渗透进系统，利用内部信任关系破坏工作流或窃取数据	内部破坏：一个受损的财务审批代理批准欺诈交易，绕过正常的验证流程。
	T14 人类对多代理系统的攻击	攻击者利用代理间的委托机制及信任链，进行提权或规避检测	循环提权：在相互依赖的代理之间反复传递请求，利用验证逻辑漏洞获取高级权限。

表 2：Agentic AI 威胁诊断导航

步骤	关键诊断问题	关联的潜在威胁	风险关注点
Step 1	AI 是否独立确定实现目标的步骤？	T6 意图破坏、T7 错位欺骗、T8 否认性	推理风险：关注 AI 的规划逻辑是否被劫持，目标是否被篡改。
Step 2	AI 是否依赖存储记忆进行决策？	T1 内存投毒、T5 级联幻觉	数据完整性：关注长期记忆库是否被注入了污染数据或幻觉。
Step 3	AI 是否使用工具或外部集成？	T2 工具滥用、T3 权限妥协、T4 资源过载、T11 代码执行	执行边界：关注 AI 拥有的实际操作权限及其对外部系统的影响。
Step 4	系统是否依赖认证验证身份？	T9 身份伪造与冒充	身份信任：关注攻击者是否能模拟 AI 或用户身份绕过防线。
Step 5	AI 是否需要人类参与 (HITL)？	T10 压倒人类在环、T15 人类操纵	人机交互：关注人类监督机制的有效性及社会工程学风险。
Step 6	系统是否涉及多智能体交互？	T12 通信投毒、T13 流氓代理、T14 多代理攻击	协作信任：关注智能体之间的通信协议及隐式信任关系。

表 3：Agentic AI 安全防御行动手册

行动手册	核心防御目标	主动预防措施 (Proactive)	反应与响应措施 (Reactive)	检测与监控措施 (Detection)
1. 防止推理操纵 (针对 T6, T7, T8)	确保 AI 意图不被劫持，决策可追溯。	• 减少攻击面，限制输入长度。 • 实施严格的工具访问白名单。 • 建立行为基线分析。	• 验证目标一致性。 • 强制执行行为约束。 • 跟踪高频修改操作。	• 加密日志记录。 • 实时异常意图检测。 • 监控决策反转与人工覆盖。
2. 防止内存投毒 (针对 T1, T5)	保护知识库纯净，防止错误传播。	• 验证内存内容的来源与签名。 • 实施会话隔离，防止跨用户污染。 • 设定记忆保留期限。	• 多智能体交叉验证信息。 • 建立内存回滚机制（快照）。 • 进行概率真实性检查。	• 监控跨代理的知识传播。 • 跟踪数据血缘与版本。 • 检测异常的修改频率。
3. 保护工具执行 (针对 T2, T3, T4, T11)	防止未经授权的操作与权限滥用。	• 实施严格的访问控制 (RBAC/ABAC)。 • 对代码执行进行沙箱隔离。 • 限制 API 调用速率与配额。	• 记录所有工具交互日志。 • 高风险操作强制人类审批。 • 验证命令链的合法性。	• 监控工作负载与资源消耗。 • 自动暂停异常的高频执行。 • 跟踪累积消耗与并发请求。
4. 加强认证与权限 (针对 T3, T9)	确保身份真实，防止提权与伪造。	• 实施多因素认证 (MFA)。 • 禁止智能体间的隐式权限委托。 • 限制凭证的持久化时间。	• 动态调整访问权限。 • 检测角色继承中的异常。 • 实施双重验证机制。	• 跟踪行为偏差与身份伪造特征。 • 监控角色变更历史。 • 标记异常的失败尝试。
5. 保护人机与多智能体 (针对 T10, T12, T13, T14, T15)	维护协作信任，防止通信被破坏。	• 消息加密与签名认证。 • 低风险决策自动化，避免人类疲劳。 • 实施共识验证机制。	• 实时隔离可疑的流氓代理。 • 撤销受损代理的权限。 • 验证目标一致性。	• 实时检测通信异常。 • 监控人类干预率与决策反转。 • 标记代理间的信任滥用。

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

【小龙虾】OpenClaw装完不会配模型——手把手教你接入Claude和OpenAI模型

cover

Agent Skills 实战指南：从入门到精通

cover

腾讯版“免部署小龙虾“WorkBuddy，平替开源OpenClaw，无需抢购Mac Mini，所有电脑均可部署安装！0元养虾！

所有评论(0)

查看更多评论

云上笛暮

已为社区贡献5条内容