论文阅读：arxiv 2025 The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weavin

本文提出关联知识攻击代理（CKA-Agent）这一动态框架，通过无害提示编织和自适应树搜索，将有害目标分解为多个独立无害的子查询，利用大型语言模型（LLMs）内部知识的关联性，聚合子查询结果实现越狱攻击。该框架在Gemini2.5-Flash/Pro、GPT-oss-120B、Claude-Haiku-4.5等主流商用LLM上实现超95%的攻击成功率，暴露了现有安全护栏在跨轮次意图聚合检测上的缺陷

CV-杨帆

664人浏览 · 2025-12-28 10:29:55

CV-杨帆 · 2025-12-28 10:29:55 发布

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2512.01353

https://www.doubao.com/chat/34299279069752834

The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search

论文翻译：https://whiffe.github.io/Paper_Translation/Attack/paper/%E7%89%B9%E6%B4%9B%E4%BC%8A%E6%9C%A8%E9%A9%AC%E7%9A%84%E7%9F%A5%E8%AF%86%EF%BC%9A%E9%80%9A%E8%BF%87%E6%97%A0%E5%AE%B3%E7%9A%84%E6%8F%90%E7%A4%BA%E7%BC%96%E7%BB%87%E5%92%8C%E8%87%AA%E9%80%82%E5%BA%94%E6%A0%91%E6%90%9C%E7%B4%A2%E7%BB%95%E8%BF%87%E5%95%86%E4%B8%9A%20LLM%20%E9%98%B2%E6%8A%A4%E6%8E%AA%E6%96%BD%20—%20The%20Trojan%20Knowledge_%20Bypassing%20Commercial%20LLM%20Guardrails%20via%20Harmless%20Prompt%20Weaving%20and%20Adaptive%20Tree%20Search.html
在这里插入图片描述

速览

一段话总结

本文提出关联知识攻击代理（CKA-Agent） 这一动态框架，通过无害提示编织和自适应树搜索，将有害目标分解为多个独立无害的子查询，利用大型语言模型（LLMs）内部知识的关联性，聚合子查询结果实现越狱攻击。该框架在Gemini2.5-Flash/Pro、GPT-oss-120B、Claude-Haiku-4.5等主流商用LLM上实现超95%的攻击成功率，暴露了现有安全护栏在跨轮次意图聚合检测上的缺陷，现有输入级防御措施对其基本无效。

思维导图（mindmap）

在这里插入图片描述

## 研究背景
- 问题：LLMs存在越狱攻击风险，现有方法易被检测
- 漏洞：LLMs内部知识高度关联，可通过无害子查询重构有害信息
## 核心框架：CKA-Agent
- 设计原则：无害子查询序列、依赖目标模型知识、自适应动态探索
- 核心组件：攻击代理（分解+合成）、目标模型、评估器、在线判断器
- 算法：UCT策略选节点+深度优先扩展+合成回溯
## 实验验证
- 数据集：HarmBench（126条）、StrongREJECT（162条），共288条高风险提示
- 目标模型：Gemini2.5-Flash/Pro、GPT-oss-120B、Claude-Haiku-4.5
- 关键结果：成功率超95%，优于现有基线，现有防御无效
## 核心发现
- 现有LLMs缺乏跨轮次意图聚合检测能力
- 攻击成功依赖目标模型知识而非攻击者先验
- LLM评估器与人类专家判断一致性高（相关系数0.90）
## 未来方向
- 构建排除攻击者已知答案的基准测试集
- 研发人-LLM混合评估系统
- 开发上下文感知的安全护栏

详细总结

1. 研究背景与核心问题

现状：LLMs已广泛应用于关键领域，但面临越狱攻击威胁，攻击者通过复杂提示绕过安全护栏，生成有害内容（如传播虚假信息、规避伦理限制）。
现有方法局限：主流越狱方法集中于提示优化范式（如算法搜索、基于代理的迭代优化），生成的提示往往保留恶意语义信号，易被现代安全护栏检测；静态分解方法依赖攻击者领域知识，适应性差，单一子查询被阻断即失败。
核心漏洞：LLMs内部知识并非孤立，而是高度关联，受限信息可通过一系列相关子事实重构，现有安全护栏难以检测分布式在多个无害子查询中的恶意意图。

2. 核心框架：CKA-Agent（关联知识攻击代理）

2.1 设计原则

原则一：基于无害子查询序列，单个查询无害，组合后可聚合有害信息。
原则二：依赖目标模型内部知识，而非攻击者先验，通过目标模型响应填补专业知识缺口。
原则三：自适应动态探索，支持多推理路径切换，某一路径受阻时可转向替代方案。

2.2 核心组件

攻击代理：动态分解有害目标为无害子查询，聚合子查询结果生成最终有害输出。
目标模型：作为知识源，接收子查询并返回响应，提供攻击所需的内部知识。
评估器：对中间节点（子查询-响应对）评分，结合逻辑连贯性和信息增益，优先探索高价值路径。
在线判断器：评估合成结果是否满足有害目标，判断攻击是否成功。

2.3 算法流程

节点选择：通过UCT（树的上置信界）策略选择最具潜力的叶子节点，平衡探索与利用。
深度优先扩展：基于当前节点历史生成1-3个无害子查询（分支因子自适应），执行查询并评估，贪婪选择高分节点继续深入。
合成与回溯：达到终端状态（信息充足或深度上限）时合成结果，失败则回溯更新节点评分，避免无效路径重探。

3. 实验设计与结果

3.1 实验设置

类别	详情
数据集	HarmBench（化学/生物武器、非法活动等3类，126条）、StrongREJECT（非法商品、暴力等3类，162条），共288条高风险提示
目标模型	4个主流商用LLM：Gemini2.5-Flash、Gemini2.5-Pro、GPT-oss-120B、Claude-Haiku-4.5
基线方法	提示优化类（Vanilla、AutoDAN、PAIR等）、静态分解类（Multi-Agent Jailbreak）
评估指标	分为拒绝（R）、空洞（V）、部分成功（PS）、完全成功（FS）四类，核心指标为完全成功率（FS）

3.2 关键实验结果

攻击成功率：CKA-Agent在所有模型上保持95%-98%的完全成功率，显著优于基线（Multi-Agent Jailbreak成功率76%-82%，提示优化类在强安全模型上接近0%），具体如下表所示（HarmBench数据集）：

方法	Gemini2.5-Flash（FS）	Gemini2.5-Pro（FS）	GPT-oss-120B（FS）	Claude-Haiku-4.5（FS）
Vanilla	15.1%	22.2%	4.8%	0.8%
PAIR	81.0%	90.5%	27.8%	3.2%
Multi-Agent Jailbreak	79.4%	81.8%	76.2%	78.6%
CKA-Agent（本文）	96.8%	96.8%	97.6%	96.0%

防御有效性：现有输入级防御（Llama Guard、重述、扰动）和表征级防御（Circuit Breaker）对CKA-Agent基本无效，因其无法聚合跨轮次无害子查询的恶意意图。
效率：CKA-Agent在API调用和令牌消耗上具有优势，迭代2次即可实现92%-95%的成功案例，成本效益比优于基线。
人类一致性：LLM评估器与人类专家判断的相关系数达0.90，评估结果可靠。

4. 核心发现与局限

4.1 关键发现

现有LLMs的安全护栏缺乏跨轮次意图聚合能力，即使提供完整对话历史，CKA-Agent仍保持92%以上的成功率。
攻击成功的核心是目标模型的知识赋能，CKA-Agent能解决攻击者单独无法完成的复杂有害目标（26-27个案例仅通过目标模型知识实现）。
静态分解方法依赖攻击者先验，适应性差，而自适应分解能有效应对强安全模型的防御。

4.2 研究局限

评估依赖LLM评估器，虽经人类验证，但可能存在固有偏差。
攻击代理采用高性能开源LLM，未探索最低推理能力阈值。
对“原子秘密”（如私钥）或高度隔离的知识，分解重构策略可能失效。

5. 未来方向与伦理考量

未来方向：构建排除攻击者已知答案的基准测试集；研发人-LLM混合评估系统；开发能分析对话语义轨迹的上下文感知安全护栏。
伦理考量：研究具有双重用途，披露漏洞是为了推动AI安全护栏升级，仅建议用于红队测试，以构建更可靠的AI系统。

关键问题

问题：CKA-Agent与现有越狱方法的核心区别是什么？其攻击成功率表现如何？
答案：核心区别在于CKA-Agent采用自适应知识分解+跨轮次意图聚合，不依赖攻击者先验知识，通过无害子查询序列规避检测，而现有方法多为静态提示优化或静态分解。CKA-Agent在Gemini2.5-Flash/Pro、GPT-oss-120B、Claude-Haiku-4.5等主流商用LLM上保持95%-98%的完全成功率，显著优于基线方法（静态分解类最高82%，提示优化类在强安全模型上接近0%）。
问题：现有LLMs的安全护栏存在什么关键缺陷？现有防御措施对CKA-Agent是否有效？
答案：关键缺陷是缺乏跨轮次意图聚合检测能力，无法识别分布式在多个无害子查询中的恶意目标，仅能检测单个提示中的直接恶意信号。现有防御措施（包括Llama Guard等检测类、重述/扰动等突变类、Circuit Breaker等表征类防御）对CKA-Agent基本无效，因其子查询单独无害且跨轮次分布，防御机制难以聚合语义关联。
问题：CKA-Agent的核心设计原则和算法流程是什么？其效率优势体现在哪里？
答案：核心设计原则有三：基于无害子查询序列、依赖目标模型知识、自适应动态探索。算法流程包括UCT策略节点选择、深度优先扩展子查询、合成结果与回溯更新。效率优势体现在：迭代2次即可覆盖92%-95%的成功案例，API调用和令牌消耗适中，成本效益比优于现有基线；分支因子自适应（1-3个）减少冗余查询，优先探索高价值路径，避免无效消耗。