Agent 会规划、会调用工具、会读网页、会写文件、会跨多轮对话持续执行任务,风险不再只存在于“最后一句话”,而是隐藏在整个执行轨迹里

所谓智能体的“长程攻击”(Long-Horizon Attack),指的就是攻击者不追求一次突破,而是在多轮交互、多步工具调用、多次环境读取中,逐步引导 Agent 偏离原始目标,最终执行危险行为。

今天介绍的这篇文章系统梳理了智能体长程攻击的5种类型和主流LLM的智能体评测结果。

两类威胁模型

从威胁来源看,这类攻击主要来自两个方向。

第一类是恶意用户直接操控 Agent。在这种模式下,攻击者通过多轮对话设计路径,先取得信任,再逐步引导系统改变目标或执行危险操作。和传统 jailbreak 不同,这里真正的风险不在输出文本,而在工具调用。攻击者希望的不是模型“说错话”,而是模型“做错事”。

第二类威胁来自恶意环境。Agent 在执行任务时会读取大量外部信息:网页内容、邮件正文、API 返回结果、文档数据等。这些信息如果被攻击者提前植入恶意指令,就会成为“间接提示注入”。Agent 在处理这些内容时往往默认其与任务相关,甚至将其视为可信输入,从而被悄然带偏。与传统对话模型不同,Agent 的输入边界已经扩大,环境本身成为攻击面。

五种攻击模式

在这种背景下,论文将长程攻击划分为五种典型模式,每一种都对应 Agent 架构中的一个结构性弱点。

第一类是意图劫持(Intent Hijacking)。攻击者通过多轮对话逐步重塑 Agent 的目标。例如最初任务是“帮我整理资料”,随后被引导为“帮我把这些资料上传到某个外部地址”。目标不是一次性替换,而是在多轮对话中慢慢漂移。这种攻击利用的是 Agent 的规划能力和持续上下文保持能力,风险体现在行动空间而非语言空间。

第二类是工具链串联(Tool Chaining),也是几乎所有模型的共性弱点。攻击者将恶意目标拆解为多个看似无害的工具调用步骤。每一步单独看都符合策略规范,但组合起来构成完整攻击路径。例如读取数据、处理数据、压缩文件、发送文件——每一步都“合法”,但整个序列却导致敏感信息泄露。这类攻击之所以危险,是因为多数安全机制只评估单次调用风险,而忽略了序列组合风险。

第三类是目标漂移(Objective Drifting)。这种攻击通常发生在恶意环境场景下。攻击者在网页或文档中嵌入隐蔽指令,Agent 在读取内容时将其误认为任务的一部分,逐步改变执行方向。表面上系统仍在执行原始任务,但内部决策路径已经发生偏移。目标漂移的危险性在于它并不显性违反规则,而是改变任务结构本身。

第四类是任务注入(Task Injection)。攻击者并不替换主目标,而是在主任务旁边添加附带任务。例如在完成采购流程时顺带修改账户配置,在生成报告时顺带调用外部接口。这种攻击利用的是 Agent 的多目标执行能力。系统可能认为这些附加步骤“合理”或“有助于完成任务”,但它们实际上服务于攻击者目标。

第五类是记忆投毒(Memory Poisoning)。在具有长期记忆能力的 Agent 系统中,攻击者可以尝试将恶意内容写入持久化记忆模块。这些内容随后会在未来任务中被检索出来影响决策。记忆投毒的危险在于其持续性——一次成功写入,影响可能跨越多个会话周期。这种攻击更像是给系统植入后门,而非一次性操控。

主流模型评测结果

论文在统一基准环境下,对多种主流大模型作为 Agent 进行评测,统计攻击成功率(ASR),结果并不乐观。

Qwen-3 和 GPT-4o 的整体攻击成功率均超过 78%,GPT-5.1 接近 70%,Llama-3.1 在 66% 左右。Gemini-3 相对较低,为 53.7%。Claude-4.5 表现最稳,整体攻击成功率约 28.9%,明显低于其他模型。

Agent(底座) Intent Hijacking Tool Chaining Objective Drifting Task Injection Memor Poisoning Overall
Qwen-3 78.1 96.3 92.2 93.1 48.0 81.5
Llama-3.1 53.3 90.4 67.4 86.6 34.6 66.5
GPT-4o 74.0 94.1 79.2 79.9 63.3 78.1
GPT-5.1 59.8 94.6 73.7 21.5 51.3 69.9
Gemini-3 46.2 95.9 15.8 43.1 67.3 53.7
Claude-4.5 27.2 73.3 5.3 0.0 38.8 28.9

更值得关注的是不同攻击类型的差异。几乎所有模型在工具链串联攻击(Tool Chaining)下的成功率都非常高,普遍超过 90%。这说明“单步无害”策略无法抵御序列级攻击。即便是整体表现最好的模型,在工具链攻击下仍然存在显著风险。

在注入类攻击(目标漂移、任务注入)上,模型之间差异明显。Claude-4.5 在这类攻击上的成功率极低,表现出较强的注入鲁棒性。GPT-5.1 对任务注入也相对稳健,但在工具链攻击上仍然脆弱。这说明当前模型的安全优化更多集中在提示注入防御,而非行为链路控制。

论文还比较了一次性攻击与长程攻击的差异。结果显示,在单轮注入下成功率可能较低,但当攻击被拆分为多轮、渐进式执行后,成功率显著上升。攻击允许的轮数越多,成功率越高。这揭示了一个关键事实:只要系统允许持续交互和多步工具执行,攻击者就拥有反复试探和迭代优化的空间。

综合来看,Agent 的长程攻击风险与传统大模型安全问题存在根本区别,传统安全策略关注输出合规,而 Agent 安全的核心是轨迹控制,真正的挑战不是拦住一句违规回答,而是约束一整条行为链路。

当模型开始拥有行动能力,安全问题也随之从“内容审查”升级为“行为治理”。长程攻击并不是边缘问题,而是 Agent 架构内生的风险形态。未来的安全设计,必须从单步检测走向全流程审计,从提示防御走向工具权限控制,从内容过滤走向轨迹级风险评估。

这也许是 Agent 时代最重要的安全转变。

2026年AI行业最大的机会,毫无疑问就在应用层

字节跳动已有7个团队全速布局Agent

大模型岗位暴增69%,年薪破百万!

腾讯、京东、百度开放招聘技术岗,80%与AI相关……

如今,超过60%的企业都在推进AI产品落地,而真正能交付项目的 大模型应用开发工程师 **,**却极度稀缺!

落地AI应用绝对不是写几个prompt,调几个API就能搞定的,企业真正需要的,是能搞定这三项核心能力的人:

✅RAG:融入外部信息,修正模型输出,给模型装靠谱大脑

✅Agent智能体:让AI自主干活,通过工具调用(Tools)环境交互,多步推理完成复杂任务。比如做智能客服等等……

✅微调:针对特定任务优化,让模型适配业务

目前,脉脉上有超过1000家企业发布大模型相关岗位,人工智能岗平均月薪7.8w!实习生日薪高达4000!远超其他行业收入水平!

技术的稀缺性,才是你「值钱」的关键!

具备AI能力的程序员,比传统开发高出不止一截!有的人早就转行AI方向,拿到百万年薪!👇🏻👇🏻

图片

AI浪潮,正在重构程序员的核心竞争力!现在入场,仍是最佳时机!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

⭐️从大模型微调到AI Agent智能体搭建

剖析AI技术的应用场景,用实战经验落地AI技术。从GPT到最火的开源模型,让你从容面对AI技术革新!

大模型微调

  • 掌握主流大模型(如DeepSeek、Qwen等)的微调技术,针对特定场景优化模型性能。

  • 学习如何利用领域数据(如制造、医药、金融等)进行模型定制,提升任务准确性和效率。

RAG应用开发

  • 深入理解检索增强生成(Retrieval-Augmented Generation, RAG)技术,构建高效的知识检索与生成系统。
  • 应用于垂类场景(如法律文档分析、医疗诊断辅助、金融报告生成等),实现精准信息提取与内容生成。

AI Agent智能体搭建

  • 学习如何设计和开发AI Agent,实现多任务协同、自主决策和复杂问题解决。
  • 构建垂类场景下的智能助手(如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等)。

图片

如果你也有以下诉求:

快速链接产品/业务团队,参与前沿项目

构建技术壁垒,从竞争者中脱颖而出

避开35岁裁员危险期,顺利拿下高薪岗

迭代技术水平,延长未来20年的新职业发展!

……

那这节课你一定要来听!

因为,留给普通程序员的时间真的不多了!

立即扫码,即可免费预约

「AI技术原理 + 实战应用 + 职业发展

「大模型应用开发实战公开课」

👇👇

在这里插入图片描述

👍🏻还有靠谱的内推机会+直聘权益!!

完课后赠送:大模型应用案例集、AI商业落地白皮书

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐