Agent长程攻击：步步为营，从“最后一句话”到“整个执行轨迹”的风险揭秘！

Agent 会规划、会调用工具、会读网页、会写文件、会跨多轮对话持续执行任务，风险不再只存在于“最后一句话”，而是隐藏在**整个执行轨迹里**。所谓智能体的“长程攻击”（Long-Horizon Attack），指的就是攻击者不追求一次突破，而是在**多轮交互、多步工具调用、多次环境读取**中，逐步引导 Agent 偏离原始目标，最终执行危险行为。今天介绍的这篇文章系统梳理了智能体长程攻击的5种类

拥抱AGI

314人浏览 · 2026-03-06 20:40:50

拥抱AGI · 2026-03-06 20:40:50 发布

Agent 会规划、会调用工具、会读网页、会写文件、会跨多轮对话持续执行任务，风险不再只存在于“最后一句话”，而是隐藏在整个执行轨迹里。

所谓智能体的“长程攻击”（Long-Horizon Attack），指的就是攻击者不追求一次突破，而是在多轮交互、多步工具调用、多次环境读取中，逐步引导 Agent 偏离原始目标，最终执行危险行为。

今天介绍的这篇文章系统梳理了智能体长程攻击的5种类型和主流LLM的智能体评测结果。

两类威胁模型

从威胁来源看，这类攻击主要来自两个方向。

第一类是恶意用户直接操控 Agent。在这种模式下，攻击者通过多轮对话设计路径，先取得信任，再逐步引导系统改变目标或执行危险操作。和传统 jailbreak 不同，这里真正的风险不在输出文本，而在工具调用。攻击者希望的不是模型“说错话”，而是模型“做错事”。

第二类威胁来自恶意环境。Agent 在执行任务时会读取大量外部信息：网页内容、邮件正文、API 返回结果、文档数据等。这些信息如果被攻击者提前植入恶意指令，就会成为“间接提示注入”。Agent 在处理这些内容时往往默认其与任务相关，甚至将其视为可信输入，从而被悄然带偏。与传统对话模型不同，Agent 的输入边界已经扩大，环境本身成为攻击面。

五种攻击模式

在这种背景下，论文将长程攻击划分为五种典型模式，每一种都对应 Agent 架构中的一个结构性弱点。

第一类是意图劫持（Intent Hijacking）。攻击者通过多轮对话逐步重塑 Agent 的目标。例如最初任务是“帮我整理资料”，随后被引导为“帮我把这些资料上传到某个外部地址”。目标不是一次性替换，而是在多轮对话中慢慢漂移。这种攻击利用的是 Agent 的规划能力和持续上下文保持能力，风险体现在行动空间而非语言空间。

第二类是工具链串联（Tool Chaining），也是几乎所有模型的共性弱点。攻击者将恶意目标拆解为多个看似无害的工具调用步骤。每一步单独看都符合策略规范，但组合起来构成完整攻击路径。例如读取数据、处理数据、压缩文件、发送文件——每一步都“合法”，但整个序列却导致敏感信息泄露。这类攻击之所以危险，是因为多数安全机制只评估单次调用风险，而忽略了序列组合风险。

第三类是目标漂移（Objective Drifting）。这种攻击通常发生在恶意环境场景下。攻击者在网页或文档中嵌入隐蔽指令，Agent 在读取内容时将其误认为任务的一部分，逐步改变执行方向。表面上系统仍在执行原始任务，但内部决策路径已经发生偏移。目标漂移的危险性在于它并不显性违反规则，而是改变任务结构本身。

第四类是任务注入（Task Injection）。攻击者并不替换主目标，而是在主任务旁边添加附带任务。例如在完成采购流程时顺带修改账户配置，在生成报告时顺带调用外部接口。这种攻击利用的是 Agent 的多目标执行能力。系统可能认为这些附加步骤“合理”或“有助于完成任务”，但它们实际上服务于攻击者目标。

第五类是记忆投毒（Memory Poisoning）。在具有长期记忆能力的 Agent 系统中，攻击者可以尝试将恶意内容写入持久化记忆模块。这些内容随后会在未来任务中被检索出来影响决策。记忆投毒的危险在于其持续性——一次成功写入，影响可能跨越多个会话周期。这种攻击更像是给系统植入后门，而非一次性操控。

主流模型评测结果

论文在统一基准环境下，对多种主流大模型作为 Agent 进行评测，统计攻击成功率（ASR），结果并不乐观。

Qwen-3 和 GPT-4o 的整体攻击成功率均超过 78%，GPT-5.1 接近 70%，Llama-3.1 在 66% 左右。Gemini-3 相对较低，为 53.7%。Claude-4.5 表现最稳，整体攻击成功率约 28.9%，明显低于其他模型。

Agent(底座)	Intent Hijacking	Tool Chaining	Objective Drifting	Task Injection	Memor Poisoning	Overall
Qwen-3	78.1	96.3	92.2	93.1	48.0	81.5
Llama-3.1	53.3	90.4	67.4	86.6	34.6	66.5
GPT-4o	74.0	94.1	79.2	79.9	63.3	78.1
GPT-5.1	59.8	94.6	73.7	21.5	51.3	69.9
Gemini-3	46.2	95.9	15.8	43.1	67.3	53.7
Claude-4.5	27.2	73.3	5.3	0.0	38.8	28.9

更值得关注的是不同攻击类型的差异。几乎所有模型在工具链串联攻击（Tool Chaining）下的成功率都非常高，普遍超过 90%。这说明“单步无害”策略无法抵御序列级攻击。即便是整体表现最好的模型，在工具链攻击下仍然存在显著风险。

在注入类攻击（目标漂移、任务注入）上，模型之间差异明显。Claude-4.5 在这类攻击上的成功率极低，表现出较强的注入鲁棒性。GPT-5.1 对任务注入也相对稳健，但在工具链攻击上仍然脆弱。这说明当前模型的安全优化更多集中在提示注入防御，而非行为链路控制。

论文还比较了一次性攻击与长程攻击的差异。结果显示，在单轮注入下成功率可能较低，但当攻击被拆分为多轮、渐进式执行后，成功率显著上升。攻击允许的轮数越多，成功率越高。这揭示了一个关键事实：只要系统允许持续交互和多步工具执行，攻击者就拥有反复试探和迭代优化的空间。

综合来看，Agent 的长程攻击风险与传统大模型安全问题存在根本区别，传统安全策略关注输出合规，而 Agent 安全的核心是轨迹控制，真正的挑战不是拦住一句违规回答，而是约束一整条行为链路。

当模型开始拥有行动能力，安全问题也随之从“内容审查”升级为“行为治理”。长程攻击并不是边缘问题，而是 Agent 架构内生的风险形态。未来的安全设计，必须从单步检测走向全流程审计，从提示防御走向工具权限控制，从内容过滤走向轨迹级风险评估。

这也许是 Agent 时代最重要的安全转变。

2026年AI行业最大的机会，毫无疑问就在应用层！

字节跳动已有7个团队全速布局Agent

大模型岗位暴增69%，年薪破百万！

腾讯、京东、百度开放招聘技术岗，80%与AI相关……

如今，超过60%的企业都在推进AI产品落地，而真正能交付项目的 大模型应用开发工程师 **，**却极度稀缺！

落地AI应用绝对不是写几个prompt，调几个API就能搞定的，企业真正需要的，是能搞定这三项核心能力的人：

✅RAG：融入外部信息，修正模型输出，给模型装靠谱大脑

✅Agent智能体：让AI自主干活，通过工具调用（Tools）环境交互，多步推理完成复杂任务。比如做智能客服等等……

✅微调：针对特定任务优化，让模型适配业务

目前，脉脉上有超过1000家企业发布大模型相关岗位，人工智能岗平均月薪7.8w！实习生日薪高达4000！远超其他行业收入水平！

技术的稀缺性，才是你「值钱」的关键！

具备AI能力的程序员，比传统开发高出不止一截！有的人早就转行AI方向，拿到百万年薪！👇🏻👇🏻

AI浪潮，正在重构程序员的核心竞争力！现在入场，仍是最佳时机！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

⭐️从大模型微调到AI Agent智能体搭建

剖析AI技术的应用场景，用实战经验落地AI技术。从GPT到最火的开源模型，让你从容面对AI技术革新！

大模型微调

掌握主流大模型（如DeepSeek、Qwen等）的微调技术，针对特定场景优化模型性能。
学习如何利用领域数据（如制造、医药、金融等）进行模型定制，提升任务准确性和效率。

RAG应用开发

深入理解检索增强生成（Retrieval-Augmented Generation, RAG）技术，构建高效的知识检索与生成系统。
应用于垂类场景（如法律文档分析、医疗诊断辅助、金融报告生成等），实现精准信息提取与内容生成。

AI Agent智能体搭建

学习如何设计和开发AI Agent，实现多任务协同、自主决策和复杂问题解决。
构建垂类场景下的智能助手（如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等）。

如果你也有以下诉求：

快速链接产品/业务团队，参与前沿项目

构建技术壁垒，从竞争者中脱颖而出

避开35岁裁员危险期，顺利拿下高薪岗

迭代技术水平，延长未来20年的新职业发展！

……

那这节课你一定要来听！

因为，留给普通程序员的时间真的不多了！

立即扫码，即可免费预约

「AI技术原理 + 实战应用 + 职业发展」

「大模型应用开发实战公开课」

👇👇

在这里插入图片描述

👍🏻还有靠谱的内推机会+直聘权益！！

完课后赠送：大模型应用案例集、AI商业落地白皮书

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

破解技术文档 4 大痛点，PandaWiki 让研发效率翻倍

在软件开发流程中，技术文档的重要性无需多言。但现实中，许多研发团队都面临着文档维护繁琐、查找效率低下、内容更新滞后等问题，传统的文档管理模式已难以适配现代开发团队的实际需求。PandaWiki 作为一款开源知识库系统，为技术文档的管理与维护提供了全新解决方案。它不仅能帮助团队搭建结构化的文档体系，还借助 AI 能力让文档变得更智能、更易用。