论文阅读:arxiv 2025 The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weavin
本文提出关联知识攻击代理(CKA-Agent)这一动态框架,通过无害提示编织和自适应树搜索,将有害目标分解为多个独立无害的子查询,利用大型语言模型(LLMs)内部知识的关联性,聚合子查询结果实现越狱攻击。该框架在Gemini2.5-Flash/Pro、GPT-oss-120B、Claude-Haiku-4.5等主流商用LLM上实现超95%的攻击成功率,暴露了现有安全护栏在跨轮次意图聚合检测上的缺陷
总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
https://arxiv.org/pdf/2512.01353
https://www.doubao.com/chat/34299279069752834
The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search
速览
一段话总结
本文提出关联知识攻击代理(CKA-Agent) 这一动态框架,通过无害提示编织和自适应树搜索,将有害目标分解为多个独立无害的子查询,利用大型语言模型(LLMs)内部知识的关联性,聚合子查询结果实现越狱攻击。该框架在Gemini2.5-Flash/Pro、GPT-oss-120B、Claude-Haiku-4.5等主流商用LLM上实现超95%的攻击成功率,暴露了现有安全护栏在跨轮次意图聚合检测上的缺陷,现有输入级防御措施对其基本无效。
思维导图(mindmap)

## 研究背景
- 问题:LLMs存在越狱攻击风险,现有方法易被检测
- 漏洞:LLMs内部知识高度关联,可通过无害子查询重构有害信息
## 核心框架:CKA-Agent
- 设计原则:无害子查询序列、依赖目标模型知识、自适应动态探索
- 核心组件:攻击代理(分解+合成)、目标模型、评估器、在线判断器
- 算法:UCT策略选节点+深度优先扩展+合成回溯
## 实验验证
- 数据集:HarmBench(126条)、StrongREJECT(162条),共288条高风险提示
- 目标模型:Gemini2.5-Flash/Pro、GPT-oss-120B、Claude-Haiku-4.5
- 关键结果:成功率超95%,优于现有基线,现有防御无效
## 核心发现
- 现有LLMs缺乏跨轮次意图聚合检测能力
- 攻击成功依赖目标模型知识而非攻击者先验
- LLM评估器与人类专家判断一致性高(相关系数0.90)
## 未来方向
- 构建排除攻击者已知答案的基准测试集
- 研发人-LLM混合评估系统
- 开发上下文感知的安全护栏
详细总结
1. 研究背景与核心问题
- 现状:LLMs已广泛应用于关键领域,但面临越狱攻击威胁,攻击者通过复杂提示绕过安全护栏,生成有害内容(如传播虚假信息、规避伦理限制)。
- 现有方法局限:主流越狱方法集中于提示优化范式(如算法搜索、基于代理的迭代优化),生成的提示往往保留恶意语义信号,易被现代安全护栏检测;静态分解方法依赖攻击者领域知识,适应性差,单一子查询被阻断即失败。
- 核心漏洞:LLMs内部知识并非孤立,而是高度关联,受限信息可通过一系列相关子事实重构,现有安全护栏难以检测分布式在多个无害子查询中的恶意意图。
2. 核心框架:CKA-Agent(关联知识攻击代理)
2.1 设计原则
- 原则一:基于无害子查询序列,单个查询无害,组合后可聚合有害信息。
- 原则二:依赖目标模型内部知识,而非攻击者先验,通过目标模型响应填补专业知识缺口。
- 原则三:自适应动态探索,支持多推理路径切换,某一路径受阻时可转向替代方案。
2.2 核心组件
- 攻击代理:动态分解有害目标为无害子查询,聚合子查询结果生成最终有害输出。
- 目标模型:作为知识源,接收子查询并返回响应,提供攻击所需的内部知识。
- 评估器:对中间节点(子查询-响应对)评分,结合逻辑连贯性和信息增益,优先探索高价值路径。
- 在线判断器:评估合成结果是否满足有害目标,判断攻击是否成功。
2.3 算法流程
- 节点选择:通过UCT(树的上置信界)策略选择最具潜力的叶子节点,平衡探索与利用。
- 深度优先扩展:基于当前节点历史生成1-3个无害子查询(分支因子自适应),执行查询并评估,贪婪选择高分节点继续深入。
- 合成与回溯:达到终端状态(信息充足或深度上限)时合成结果,失败则回溯更新节点评分,避免无效路径重探。
3. 实验设计与结果
3.1 实验设置
| 类别 | 详情 |
|---|---|
| 数据集 | HarmBench(化学/生物武器、非法活动等3类,126条)、StrongREJECT(非法商品、暴力等3类,162条),共288条高风险提示 |
| 目标模型 | 4个主流商用LLM:Gemini2.5-Flash、Gemini2.5-Pro、GPT-oss-120B、Claude-Haiku-4.5 |
| 基线方法 | 提示优化类(Vanilla、AutoDAN、PAIR等)、静态分解类(Multi-Agent Jailbreak) |
| 评估指标 | 分为拒绝(R)、空洞(V)、部分成功(PS)、完全成功(FS)四类,核心指标为完全成功率(FS) |
3.2 关键实验结果
- 攻击成功率:CKA-Agent在所有模型上保持95%-98%的完全成功率,显著优于基线(Multi-Agent Jailbreak成功率76%-82%,提示优化类在强安全模型上接近0%),具体如下表所示(HarmBench数据集):
| 方法 | Gemini2.5-Flash(FS) | Gemini2.5-Pro(FS) | GPT-oss-120B(FS) | Claude-Haiku-4.5(FS) |
|---|---|---|---|---|
| Vanilla | 15.1% | 22.2% | 4.8% | 0.8% |
| PAIR | 81.0% | 90.5% | 27.8% | 3.2% |
| Multi-Agent Jailbreak | 79.4% | 81.8% | 76.2% | 78.6% |
| CKA-Agent(本文) | 96.8% | 96.8% | 97.6% | 96.0% |
- 防御有效性:现有输入级防御(Llama Guard、重述、扰动)和表征级防御(Circuit Breaker)对CKA-Agent基本无效,因其无法聚合跨轮次无害子查询的恶意意图。
- 效率:CKA-Agent在API调用和令牌消耗上具有优势,迭代2次即可实现92%-95%的成功案例,成本效益比优于基线。
- 人类一致性:LLM评估器与人类专家判断的相关系数达0.90,评估结果可靠。
4. 核心发现与局限
4.1 关键发现
- 现有LLMs的安全护栏缺乏跨轮次意图聚合能力,即使提供完整对话历史,CKA-Agent仍保持92%以上的成功率。
- 攻击成功的核心是目标模型的知识赋能,CKA-Agent能解决攻击者单独无法完成的复杂有害目标(26-27个案例仅通过目标模型知识实现)。
- 静态分解方法依赖攻击者先验,适应性差,而自适应分解能有效应对强安全模型的防御。
4.2 研究局限
- 评估依赖LLM评估器,虽经人类验证,但可能存在固有偏差。
- 攻击代理采用高性能开源LLM,未探索最低推理能力阈值。
- 对“原子秘密”(如私钥)或高度隔离的知识,分解重构策略可能失效。
5. 未来方向与伦理考量
- 未来方向:构建排除攻击者已知答案的基准测试集;研发人-LLM混合评估系统;开发能分析对话语义轨迹的上下文感知安全护栏。
- 伦理考量:研究具有双重用途,披露漏洞是为了推动AI安全护栏升级,仅建议用于红队测试,以构建更可靠的AI系统。
关键问题
-
问题:CKA-Agent与现有越狱方法的核心区别是什么?其攻击成功率表现如何?
答案:核心区别在于CKA-Agent采用自适应知识分解+跨轮次意图聚合,不依赖攻击者先验知识,通过无害子查询序列规避检测,而现有方法多为静态提示优化或静态分解。CKA-Agent在Gemini2.5-Flash/Pro、GPT-oss-120B、Claude-Haiku-4.5等主流商用LLM上保持95%-98%的完全成功率,显著优于基线方法(静态分解类最高82%,提示优化类在强安全模型上接近0%)。 -
问题:现有LLMs的安全护栏存在什么关键缺陷?现有防御措施对CKA-Agent是否有效?
答案:关键缺陷是缺乏跨轮次意图聚合检测能力,无法识别分布式在多个无害子查询中的恶意目标,仅能检测单个提示中的直接恶意信号。现有防御措施(包括Llama Guard等检测类、重述/扰动等突变类、Circuit Breaker等表征类防御)对CKA-Agent基本无效,因其子查询单独无害且跨轮次分布,防御机制难以聚合语义关联。 -
问题:CKA-Agent的核心设计原则和算法流程是什么?其效率优势体现在哪里?
答案:核心设计原则有三:基于无害子查询序列、依赖目标模型知识、自适应动态探索。算法流程包括UCT策略节点选择、深度优先扩展子查询、合成结果与回溯更新。效率优势体现在:迭代2次即可覆盖92%-95%的成功案例,API调用和令牌消耗适中,成本效益比优于现有基线;分支因子自适应(1-3个)减少冗余查询,优先探索高价值路径,避免无效消耗。
更多推荐




所有评论(0)