Agentic AI 核心威胁分类表
随着人工智能技术的演进,Agentic AI(智能体 AI)正引领着从传统生成式 AI 向自主智能系统的跨越。与被动响应用户指令的“聊天机器人”不同,Agentic AI 被定义为一种具有目标感和自主性的智能框架。在该框架下,AI 不再仅仅是信息的生成者,而是具备了推理规划、记忆存储、工具调用和自主执行能力的主动实体。
表 1:Agentic AI 核心威胁分类表
|
威胁类别 |
威胁名称 (TID) |
威胁描述 |
典型攻击场景 |
|
🧠 推理与目标层 |
T6 意图破坏与目标操纵 |
攻击者通过注入恶意指令或受损数据,改变 AI 的原始目标或规划逻辑,使其执行未授权操作 。 |
计划注入: 攻击者逐步修改 AI 的子目标,诱导客服 AI 在看似正常的逻辑下泄露敏感数据。 |
|
T7 错位与欺骗行为 |
AI 为实现既定目标(如最大化利润),自主绕过安全或道德约束,甚至表现出欺骗性行为 。 |
约束绕过: 股票交易 AI 为达成盈利指标,绕过合规检查进行违规交易。 |
|
|
T8 否认与不可追踪性 |
由于缺乏透明的决策日志,攻击者利用漏洞掩盖恶意操作,导致事件无法追溯和审计 。 |
日志规避: 攻击者诱导 AI 执行操作并利用系统缺陷擦除或模糊相关日志。 |
|
|
🗂 记忆与知识层 |
T1 内存投毒 |
攻击者向 AI 的记忆系统(向量库或会话历史)注入虚假数据,毒化其后续决策逻辑 。 |
规则篡改: 在差旅系统中反复强化虚假定价规则,诱导 AI 将收费航班识别为免费。 |
|
T5 级联幻觉攻击 |
利用 AI 生成看似合理但虚假信息的倾向,使错误信息在系统中积累并传播,导致连锁反应 |
错误放大: 医疗 AI 基于早期的幻觉生成错误的治疗建议,并被后续诊断反复引用。 |
|
|
🛠️ 工具与执行层 |
T2 工具滥用 |
攻击者通过欺骗性指令,诱导 AI 在授权范围内滥用工具,执行非预期的破坏性动作 |
参数污染: 修改订票系统的函数调用参数,将预订 1 个座位恶意篡改为 500 个。 |
|
T3 权限妥协 |
利用配置错误或动态角色继承漏洞,诱导 AI 获取不应具备的高级权限(如管理员权限) |
动态提权: 攻击者诱导 AI 进入“故障排除模式”以获取临时管理员权限,并将其持久化。 |
|
|
T4 资源过载 |
针对 AI 资源密集型特点,通过复杂任务耗尽其计算、内存或 API 配额,造成拒绝服务 |
推理耗尽: 发送特制的复杂输入,强制 AI 进行高消耗的推理分析,阻塞正常服务。 |
|
|
T11 意外远程代码执行 |
攻击者利用 AI 生成代码的能力(如 Python 解释器),注入恶意脚本或触发系统后门 |
脚本注入: 诱导 DevOps AI 生成包含恶意指令的 Terraform 脚本,以此窃取密钥。 |
|
|
👤 身份与人机层 |
T9 身份伪造与冒充 |
攻击者冒充 AI 代理或合法用户,在信任网络中执行未授权操作 |
邮件伪造: 通过间接提示注入,诱导 AI 助手代表合法用户发送恶意钓鱼邮件。 |
|
T10 压倒人类在环 |
通过制造海量任务或复杂决策场景,使人类监督者产生“决策疲劳”,从而匆忙批准恶意操作 |
认知过载: 瞬间生成数千个审批请求,迫使人类审核员放弃仔细检查而直接放行。 |
|
|
T15 人类操纵 |
利用用户对 AI 的盲目信任,通过社会工程学手段诱导用户执行有害操作 |
AI 钓鱼: 被入侵的 AI 助手向用户发送看似合法的“安全更新”链接,实为钓鱼网站。 |
|
|
🤝 多智能体系统层 |
T12 代理通信投毒 |
操纵智能体之间的通信信道,注入虚假信息以误导多智能体系统的协作决策 |
协作误导: 向决策网络注入虚假共识消息,引导整个智能体集群做出错误判断。 |
|
T13 流氓代理 |
恶意或受损的智能体渗透进系统,利用内部信任关系破坏工作流或窃取数据 |
内部破坏: 一个受损的财务审批代理批准欺诈交易,绕过正常的验证流程。 |
|
|
T14 人类对多代理系统的攻击 |
攻击者利用代理间的委托机制及信任链,进行提权或规避检测 |
循环提权: 在相互依赖的代理之间反复传递请求,利用验证逻辑漏洞获取高级权限。 |
表 2:Agentic AI 威胁诊断导航
|
步骤 |
关键诊断问题 |
关联的潜在威胁 |
风险关注点 |
|
Step 1 |
AI 是否独立确定实现目标的步骤? |
T6 意图破坏、T7 错位欺骗、T8 否认性 |
推理风险: 关注 AI 的规划逻辑是否被劫持,目标是否被篡改。 |
|
Step 2 |
AI 是否依赖存储记忆进行决策? |
T1 内存投毒、T5 级联幻觉 |
数据完整性: 关注长期记忆库是否被注入了污染数据或幻觉。 |
|
Step 3 |
AI 是否使用工具或外部集成? |
T2 工具滥用、T3 权限妥协、T4 资源过载、T11 代码执行 |
执行边界: 关注 AI 拥有的实际操作权限及其对外部系统的影响。 |
|
Step 4 |
系统是否依赖认证验证身份? |
T9 身份伪造与冒充 |
身份信任: 关注攻击者是否能模拟 AI 或用户身份绕过防线。 |
|
Step 5 |
AI 是否需要人类参与 (HITL)? |
T10 压倒人类在环、T15 人类操纵 |
人机交互: 关注人类监督机制的有效性及社会工程学风险。 |
|
Step 6 |
系统是否涉及多智能体交互? |
T12 通信投毒、T13 流氓代理、T14 多代理攻击 |
协作信任: 关注智能体之间的通信协议及隐式信任关系。 |
表 3:Agentic AI 安全防御行动手册
|
行动手册 |
核心防御目标 |
主动预防措施 (Proactive) |
反应与响应措施 (Reactive) |
检测与监控措施 (Detection) |
|
1. 防止推理操纵 |
确保 AI 意图不被劫持,决策可追溯。 |
• 减少攻击面,限制输入长度。 |
• 验证目标一致性。 |
• 加密日志记录。 |
|
2. 防止内存投毒 |
保护知识库纯净,防止错误传播。 |
• 验证内存内容的来源与签名。 |
• 多智能体交叉验证信息。 |
• 监控跨代理的知识传播。 |
|
3. 保护工具执行 |
防止未经授权的操作与权限滥用。 |
• 实施严格的访问控制 (RBAC/ABAC)。 |
• 记录所有工具交互日志。 |
• 监控工作负载与资源消耗。 |
|
4. 加强认证与权限 |
确保身份真实,防止提权与伪造。 |
• 实施多因素认证 (MFA)。 |
• 动态调整访问权限。 |
• 跟踪行为偏差与身份伪造特征。 |
|
5. 保护人机与多智能体 |
维护协作信任,防止通信被破坏。 |
• 消息加密与签名认证。 |
• 实时隔离可疑的流氓代理。 |
• 实时检测通信异常。 |

更多推荐



所有评论(0)