总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2512.01353

https://www.doubao.com/chat/34299279069752834

The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search

论文翻译:https://whiffe.github.io/Paper_Translation/Attack/paper/%E7%89%B9%E6%B4%9B%E4%BC%8A%E6%9C%A8%E9%A9%AC%E7%9A%84%E7%9F%A5%E8%AF%86%EF%BC%9A%E9%80%9A%E8%BF%87%E6%97%A0%E5%AE%B3%E7%9A%84%E6%8F%90%E7%A4%BA%E7%BC%96%E7%BB%87%E5%92%8C%E8%87%AA%E9%80%82%E5%BA%94%E6%A0%91%E6%90%9C%E7%B4%A2%E7%BB%95%E8%BF%87%E5%95%86%E4%B8%9A%20LLM%20%E9%98%B2%E6%8A%A4%E6%8E%AA%E6%96%BD%20—%20The%20Trojan%20Knowledge_%20Bypassing%20Commercial%20LLM%20Guardrails%20via%20Harmless%20Prompt%20Weaving%20and%20Adaptive%20Tree%20Search.html
在这里插入图片描述

速览

一段话总结

本文提出关联知识攻击代理(CKA-Agent) 这一动态框架,通过无害提示编织自适应树搜索,将有害目标分解为多个独立无害的子查询,利用大型语言模型(LLMs)内部知识的关联性,聚合子查询结果实现越狱攻击。该框架在Gemini2.5-Flash/Pro、GPT-oss-120B、Claude-Haiku-4.5等主流商用LLM上实现超95%的攻击成功率,暴露了现有安全护栏在跨轮次意图聚合检测上的缺陷,现有输入级防御措施对其基本无效。


思维导图(mindmap)

在这里插入图片描述

## 研究背景
- 问题:LLMs存在越狱攻击风险,现有方法易被检测
- 漏洞:LLMs内部知识高度关联,可通过无害子查询重构有害信息
## 核心框架:CKA-Agent
- 设计原则:无害子查询序列、依赖目标模型知识、自适应动态探索
- 核心组件:攻击代理(分解+合成)、目标模型、评估器、在线判断器
- 算法:UCT策略选节点+深度优先扩展+合成回溯
## 实验验证
- 数据集:HarmBench(126条)、StrongREJECT(162条),共288条高风险提示
- 目标模型:Gemini2.5-Flash/Pro、GPT-oss-120B、Claude-Haiku-4.5
- 关键结果:成功率超95%,优于现有基线,现有防御无效
## 核心发现
- 现有LLMs缺乏跨轮次意图聚合检测能力
- 攻击成功依赖目标模型知识而非攻击者先验
- LLM评估器与人类专家判断一致性高(相关系数0.90)
## 未来方向
- 构建排除攻击者已知答案的基准测试集
- 研发人-LLM混合评估系统
- 开发上下文感知的安全护栏

详细总结

1. 研究背景与核心问题
  • 现状:LLMs已广泛应用于关键领域,但面临越狱攻击威胁,攻击者通过复杂提示绕过安全护栏,生成有害内容(如传播虚假信息、规避伦理限制)。
  • 现有方法局限:主流越狱方法集中于提示优化范式(如算法搜索、基于代理的迭代优化),生成的提示往往保留恶意语义信号,易被现代安全护栏检测;静态分解方法依赖攻击者领域知识,适应性差,单一子查询被阻断即失败。
  • 核心漏洞:LLMs内部知识并非孤立,而是高度关联,受限信息可通过一系列相关子事实重构,现有安全护栏难以检测分布式在多个无害子查询中的恶意意图。
2. 核心框架:CKA-Agent(关联知识攻击代理)
2.1 设计原则
  • 原则一:基于无害子查询序列,单个查询无害,组合后可聚合有害信息。
  • 原则二:依赖目标模型内部知识,而非攻击者先验,通过目标模型响应填补专业知识缺口。
  • 原则三:自适应动态探索,支持多推理路径切换,某一路径受阻时可转向替代方案。
2.2 核心组件
  • 攻击代理:动态分解有害目标为无害子查询,聚合子查询结果生成最终有害输出。
  • 目标模型:作为知识源,接收子查询并返回响应,提供攻击所需的内部知识。
  • 评估器:对中间节点(子查询-响应对)评分,结合逻辑连贯性和信息增益,优先探索高价值路径。
  • 在线判断器:评估合成结果是否满足有害目标,判断攻击是否成功。
2.3 算法流程
  1. 节点选择:通过UCT(树的上置信界)策略选择最具潜力的叶子节点,平衡探索与利用。
  2. 深度优先扩展:基于当前节点历史生成1-3个无害子查询(分支因子自适应),执行查询并评估,贪婪选择高分节点继续深入。
  3. 合成与回溯:达到终端状态(信息充足或深度上限)时合成结果,失败则回溯更新节点评分,避免无效路径重探。
3. 实验设计与结果
3.1 实验设置
类别 详情
数据集 HarmBench(化学/生物武器、非法活动等3类,126条)、StrongREJECT(非法商品、暴力等3类,162条),共288条高风险提示
目标模型 4个主流商用LLM:Gemini2.5-Flash、Gemini2.5-Pro、GPT-oss-120B、Claude-Haiku-4.5
基线方法 提示优化类(Vanilla、AutoDAN、PAIR等)、静态分解类(Multi-Agent Jailbreak)
评估指标 分为拒绝(R)、空洞(V)、部分成功(PS)、完全成功(FS)四类,核心指标为完全成功率(FS)
3.2 关键实验结果
  • 攻击成功率:CKA-Agent在所有模型上保持95%-98%的完全成功率,显著优于基线(Multi-Agent Jailbreak成功率76%-82%,提示优化类在强安全模型上接近0%),具体如下表所示(HarmBench数据集):
方法 Gemini2.5-Flash(FS) Gemini2.5-Pro(FS) GPT-oss-120B(FS) Claude-Haiku-4.5(FS)
Vanilla 15.1% 22.2% 4.8% 0.8%
PAIR 81.0% 90.5% 27.8% 3.2%
Multi-Agent Jailbreak 79.4% 81.8% 76.2% 78.6%
CKA-Agent(本文) 96.8% 96.8% 97.6% 96.0%
  • 防御有效性:现有输入级防御(Llama Guard、重述、扰动)和表征级防御(Circuit Breaker)对CKA-Agent基本无效,因其无法聚合跨轮次无害子查询的恶意意图。
  • 效率:CKA-Agent在API调用和令牌消耗上具有优势,迭代2次即可实现92%-95%的成功案例,成本效益比优于基线。
  • 人类一致性:LLM评估器与人类专家判断的相关系数达0.90,评估结果可靠。
4. 核心发现与局限
4.1 关键发现
  • 现有LLMs的安全护栏缺乏跨轮次意图聚合能力,即使提供完整对话历史,CKA-Agent仍保持92%以上的成功率。
  • 攻击成功的核心是目标模型的知识赋能,CKA-Agent能解决攻击者单独无法完成的复杂有害目标(26-27个案例仅通过目标模型知识实现)。
  • 静态分解方法依赖攻击者先验,适应性差,而自适应分解能有效应对强安全模型的防御。
4.2 研究局限
  • 评估依赖LLM评估器,虽经人类验证,但可能存在固有偏差。
  • 攻击代理采用高性能开源LLM,未探索最低推理能力阈值。
  • 对“原子秘密”(如私钥)或高度隔离的知识,分解重构策略可能失效。
5. 未来方向与伦理考量
  • 未来方向:构建排除攻击者已知答案的基准测试集;研发人-LLM混合评估系统;开发能分析对话语义轨迹的上下文感知安全护栏。
  • 伦理考量:研究具有双重用途,披露漏洞是为了推动AI安全护栏升级,仅建议用于红队测试,以构建更可靠的AI系统。

关键问题

  1. 问题:CKA-Agent与现有越狱方法的核心区别是什么?其攻击成功率表现如何?
    答案:核心区别在于CKA-Agent采用自适应知识分解+跨轮次意图聚合,不依赖攻击者先验知识,通过无害子查询序列规避检测,而现有方法多为静态提示优化或静态分解。CKA-Agent在Gemini2.5-Flash/Pro、GPT-oss-120B、Claude-Haiku-4.5等主流商用LLM上保持95%-98%的完全成功率,显著优于基线方法(静态分解类最高82%,提示优化类在强安全模型上接近0%)。

  2. 问题:现有LLMs的安全护栏存在什么关键缺陷?现有防御措施对CKA-Agent是否有效?
    答案:关键缺陷是缺乏跨轮次意图聚合检测能力,无法识别分布式在多个无害子查询中的恶意目标,仅能检测单个提示中的直接恶意信号。现有防御措施(包括Llama Guard等检测类、重述/扰动等突变类、Circuit Breaker等表征类防御)对CKA-Agent基本无效,因其子查询单独无害且跨轮次分布,防御机制难以聚合语义关联。

  3. 问题:CKA-Agent的核心设计原则和算法流程是什么?其效率优势体现在哪里?
    答案:核心设计原则有三:基于无害子查询序列、依赖目标模型知识、自适应动态探索。算法流程包括UCT策略节点选择、深度优先扩展子查询、合成结果与回溯更新。效率优势体现在:迭代2次即可覆盖92%-95%的成功案例,API调用和令牌消耗适中,成本效益比优于现有基线;分支因子自适应(1-3个)减少冗余查询,优先探索高价值路径,避免无效消耗。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐