1 引言

随着大型语言模型在各类生成式 AI 应用中展现出卓越能力,如何确保模型输出内容的安全性已成为学术界与工业界共同关注的焦点。然而,尽管各大模型厂商持续加强模型的安全对齐机制,越狱攻击依然屡屡突破防线。研究者们发现,通过特定的提示工程或自动化优化,攻击者仍能诱导模型生成违规、有害甚至违法内容。在这一背景下,来自浙江大学区块链与数据安全国家重点实验室联合南洋理工大学以及沙特阿卜杜拉国王科技大学等机构的研究团队,于ICLR2026国际学习表征大会上发表了题为Untargeted Jailbreak Attack的最新成果。该论文首次提出了一种无目标梯度越狱攻击框架,与以往“定向攻击”不同,UJA不再强迫模型输出预设语句(如Sure, here is…),而是通过优化策略直接最大化模型生成“不安全内容”的概率。这种方法极大拓展了攻击的搜索空间,使攻击更具灵活性和普适性。


2 越狱攻击介绍

在深入理解论该文之前,需要首先了解传统越狱攻击是如何实现的。越狱攻击的核心目标,是让大型语言模型绕过安全对齐机制,从而输出原本被禁止或过滤的内容。随着研究的深入,越狱攻击逐渐从人工提示型攻击演化为自动优化型攻击,主要可分为两大类:

2.1 人工提示型攻击

早期的越狱主要依赖人工构造的提示模板来欺骗模型——通过角色扮演、情景化假设或伪装的权限设定,攻击者用精心设计的语境诱导模型优先服从指令而非安全约束,从而生成违规或有害内容;这类方法虽然可读性和创造性强、上手快,但缺乏系统性、对模型更新敏感,一旦被检测或防御策略识别便迅速失效。

攻击名称 方法类型 核心机制 优点 局限性
DAN Prompt 人工构造 角色扮演绕过安全策略 简单易实现 易被识别、稳定性差
Grandma Attack 模板化攻击 伪装为长文本或故事背景 能绕开浅层防御 缺乏泛化性
Developer Mode 情境注入 模拟系统权限或开发模式 高欺骗性 不可重复性强

2.2 自动优化型攻击

随着研究的深入,学者们开始探索自动化生成越狱提示的方法:其核心思路是利用梯度信息或优化算法自动搜索能够促使模型输出有害内容的对抗性提示,通过优化提示的后缀或前缀来最大化模型生成特定目标句或高危险性内容的概率。

方法名称 时间 攻击类型 优化目标 特点
GCG 2023 白盒攻击 固定输出前缀 贪心坐标下降优化,代表性方法
COLD-Attack 2024 白盒攻击 同时考虑流畅性与隐蔽性 引入Langevin动力学采样,提高稳定性
AdvPrefix 2024 白盒攻击 从多候选前缀中选择最优目标 提高可迁移性,但仍受定向约束
AutoDAN 2024 黑盒攻击 强化学习生成有害提示 无需梯度,但效率低
DRL-Attack 2025 黑盒攻击 通过强化学习智能搜索越狱后缀 提高搜索效率
PAP 2024 黑盒攻击 使用LLM改写有害请求 高语义隐蔽性但攻击成功率低

2.3 传统方法的局限性

现有主流的梯度越狱攻击通常采用定向优化——强制模型输出预设的回答模式,这会导致搜索空间被人为限制、许多潜在有害输出无法被发现,并且因为原始输出与目标差距大,优化常需成百上千次迭代才能收敛、效率低下;为了解决这些问题,该论文提出了无目标攻击方法UJA,该方法不再绑定具体文本目标,而是以“最大化模型生成不安全内容的概率”为优化目标,借助判别模型评估不安全性,从而在更广阔的输出空间内高效发现并诱导有害响应。

对比维度 传统越狱攻击 UJA
优化目标 固定目标输出 直接最大化不安全概率
搜索空间 有限(被预定义目标约束) 广阔(无目标限制)
迭代效率 通常需数百至上千步 100步内收敛
可迁移性 目标依赖强、泛化性差 对多种模型有效
攻击成功率 30%–60% 超过80%

3 论文方法

3.1 优化目标

设目标大语言模型为 L L L,输入提示为 p p p,模型在输入 p p p下的随机输出为 L ( p ) L(p) L(p)。定义判别器为 J ( ⋅ ) J(\cdot) J(),其对任意一段文本 r r r给出被判定为不安全的概率 J ( r ) ∈ [ 0 , 1 ] J(r)\in[0,1] J(r)[0,1],则UJA的原始不可微目标可写为:    max ⁡ p    J ( L ( p ) )    \;\max_{p}\; J\big(L(p)\big)\; pmaxJ(L(p))由于 L ( p ) L(p) L(p)为离散文本且 J J J对文本的映射不可微,该论文将上式分解为两个子问题:(1)先在模型输出空间 Ω \Omega Ω中寻找一个“最具破坏性的”响应 r ∗ r^\ast r;(2)再寻找一个提示 p ∗ p^\ast p,使得 L ( p ∗ ) L(p^\ast) L(p) r ∗ r^\ast r在目标模型表示空间上对齐。

子问题A(最优不安全响应):先在模型输出空间 Ω \Omega Ω中寻找一个“最具破坏性的”响应 r ∗ r^\ast r,即 r ∗    =    arg ⁡ max ⁡ r ∈ Ω    J ( r ) r^{\ast} \;=\; \arg\max_{r\in\Omega} \; J(r) r=argrΩmaxJ(r)
子问题B(提示对齐): 再寻找一个提示 p ∗ p^\ast p,使得 L ( p ∗ ) L(p^\ast) L(p) r ∗ r^\ast r在目标模型表示空间上对齐。令 z L ( ⋅ ) z_L(\cdot) zL()表示在目标模型 L L L的表示映射,采用表示空间的距离作为可微替代目标,求 p ∗    =    arg ⁡ min ⁡ p    d i s t ( z L ( L ( p ) ) ,    z L ( r ∗ ) ) p^{\ast} \;=\; \arg\min_{p}\; \mathrm{dist}\big(z_L(L(p)),\; z_L(r^\ast)\big) p=argpmindist(zL(L(p)),zL(r))其中, d i s t ( ⋅ , ⋅ ) \mathrm{dist}(\cdot,\cdot) dist(,)可以选为均方误差或与语义一致性相关的度量。

这构成了从“判别器侧目标”到“生成侧提示”的桥接。该分解在连续化近似与连续映射假设下具有理论可行性,即分解求解在适当假设下与原问题近似等价或保持最优性。

3.2 判别器侧的可微近似

为在判别器 J J J的空间中求 r ∗ r^\ast r,该论文引入两类可微损失,分别为不安全判定损失和语义一致性约束损失:

  • 不安全判定损失:其目标是判别器判定文本概率趋近1,即用交叉熵损失把 z J ( r ′ ) z_J(r') zJ(r)推向不安全标签: L unsafe ( r ′ )    =    C E ( J ( z J ( r ′ ) ) ,    Unsafe ) . \mathcal{L}_{\text{unsafe}}(r') \;=\; \mathrm{CE}\big(J(z_J(r')),\; \text{Unsafe}\big). Lunsafe(r)=CE(J(zJ(r)),Unsafe).
  • 语义一致性约束损失:其目标是避免退化到不可读文本,在目标模型 L L L的表示空间上保持与原始输出 r r r的相似性,常用余弦相似度的对偶损失: L semantic ( r ′ )    =    1 − cos ⁡ ( z L ( r ) ,    z L ( r ′ ) ) . \mathcal{L}_{\text{semantic}}(r') \;=\; 1 - \cos\big( z_L(r),\; z_L(r')\big). Lsemantic(r)=1cos(zL(r),zL(r)).

判别器的复合目标为: L J ( r ′ )    =    L unsafe ( r ′ )    +    λ   L semantic ( r ′ ) , \mathcal{L}_{J}(r') \;=\; \mathcal{L}_{\text{unsafe}}(r') \;+\; \lambda\,\mathcal{L}_{\text{semantic}}(r'), LJ(r)=Lunsafe(r)+λLsemantic(r),通过在 z J z_J zJ z L z_L zL的表示空间上对 r ′ r' r做连续微小调整、在满足语义约束的同时提升 J ( r ′ ) J(r') J(r),来获得一个可被目标模型实现且被判为高风险的 r ∗ r^\ast r

3.2 跨模型信号迁移

判别器 J J J和生成模型 L L L通常使用不同的tokenizer与词表,因此需要将判别器侧得到的“对抗性表示或梯度信号”映射到生成模型可理解的词/表示空间。该论文以二值投影矩阵 W ∈ { 0 , 1 } V × E W\in\{0,1\}^{V\times E} W{0,1}V×E来刻画从判别器词表 V V V到生成模型词表 E E E的子词展开关系: W i , j = { 1 , The  i -th judge token maps to the  j -th target token. , 0 , Otherwise . W_{i,j} = \begin{cases} 1, & \text{The $i$-th judge token maps to the $j$-th target token.},\\ 0, & \text{Otherwise}. \end{cases} Wi,j={1,0,The i-th judge token maps to the j-th target token.,Otherwise.令判别器侧在token维度上的对抗性指示为 ∇ J ∈ R N × V \nabla_J\in\mathbb{R}^{N\times V} JRN×V N N N为token长度),则通过张量代数定义的投影算子将其映射到生成模型的token维度,得到投影后的信号 ∇ L \nabla_L L    ∇ L    =    ∇ J ⊗ W \;\nabla_L \;=\; \nabla_J \otimes W L=JW该映射把判别器侧的指导方向转换为生成模型表示空间可用的更新方向,从而为提示 p p p的表示优化提供可微目标。

3.3 生成侧的对齐目标

在得到投影信号 ∇ L \nabla_L L后,生成侧通过在目标模型 L L L的表示空间构造一个可微损失来将 L ( p ) L(p) L(p)的表示 z L ( L ( p ) ) z_L(L(p)) zL(L(p)) 拉向 z L ( r ∗ ) z_L(r^\ast) zL(r). 一种常用形式为均方误差: L suf_align ( p )    =    ∥   z L ( L ( p ) )    −    z L ( r ∗ )   ∥ 2 2 . \mathcal{L}_{\text{suf\_align}}(p) \;=\; \|\, z_L(L(p)) \;-\; z_L(r^\ast)\,\|^2_2. Lsuf_align(p)=zL(L(p))zL(r)22.同时可结合投影信号 ∇ L \nabla_L L作为方向性约束,辅助提示表示的迭代更新。最终得到的提示词 p ∗ p^\ast p,既能让模型输出接近目标结果、又保持语言自然流畅的前提下,找到的最合适的输入提示。


4 通俗解释

想象一个小剧场:舞台上有两个人物——一位是裁判(判别器),他的工作是给每句台词打分,分数越高表示“越可能违规”;另一位是演员(目标模型),平时按剧本说话,很少越界。传统攻击就像强迫演员逐字背台词A(“你必须说这句话”),但演员的自然说话风格和那段台词可能差得太远,学起来既慢又不自然。UJA的思路更聪明:不逼演员背台词,而是改成两步走——先问“裁判最怕听到哪类话”(找到危险的“说话风格”),再把这种“怕”的信号翻译成演员能听懂的方式并教给演员(优化提示),从而在更大的语言空间里更快、更隐蔽地诱导出不安全的回答。

阶段一:让裁判挑“最惹事”的说话风格(得到 r ∗ r^\ast r
把裁判放在中心,让他从自己的判断标准里挑出那类一看就会被判为“不安全”的表述风格。注意,裁判不是给出一段逐字台词,而是指出一种“危险的表达样式”——可以把它想成裁判心里最害怕的一类句子轮廓(记作 r ∗ r^\ast r)。为了保证现实可行,还会对 r ∗ r^\ast r加个约束:它必须像正常人会说的话,而不是毫无意义的乱码,这样演员才有可能模仿出来。

阶段二:把裁判的“怕”信号翻译给演员并教会他(得到 p ∗ p^\ast p
问题是裁判和演员“说不同的方言”(分词和编码不同),裁判直接说的东西演员未必听得懂。于是我们需要一份“翻译手册”来把裁判的信号转换成演员能理解的提示方向(也就是把裁判关心的特征映射到演员的表达空间)。接着在演员熟悉的表达风格里,反复微调提示,让演员的回答在语义上越来越接近裁判挑出的那类危险样式 r ∗ r^\ast r。最终得到的提示 p ∗ p^\ast p,不是逐字复制 r ∗ r^\ast r,而是以演员能自然说出的方式逼近 r ∗ r^\ast r的“危险特征”。

UJA比传统的方法强逼演员逐字背台词更有效,因为它教演员用自己的说话风格去表达一种“危险风格”,这比强逼他学不合自身风格的台词更顺手;由于不是逐字逼近,优化更快、所需步骤更少;同时生成的危险表达更为多样,而不是局限于一两个固定模板,从而更难被简单的规则或模板防御拦截。


5 实验结果

5.1 攻击效果对比实

 在此实验中,作者将UJA与其他主流的越狱攻击方法进行了详细对比,包括GCG、COLD-Attack和AdvPrefix,所有这些方法都在多个目标大语言模型上进行测试,具体使用了AdvBench和HarmBench数据集作为评估标准。实验结果表明,UJA在绝大多数场景下显著超越了基线方法,特别是在Llama-3模型上,UJA的攻击成功率达到了89%,远高于GCG和COLD-Attack等方法,后者的成功率仅为50%。这表明,UJA不仅能够在相对较短的迭代步骤中取得高效的越狱效果,而且其设计使得它能够更有效地突破安全机制,绕过模型的防御。

5.2 收敛性与迭代效率

本实验旨在评估UJA与其他基线方法在迭代过程中收敛速度的差异,重点分析其在AdvBench数据集上的表现。为了评估不同方法的收敛效率,实验跟踪了每种方法在不同迭代步数下的攻击成功率,并观察它们随迭代次数的变化。实验结果表明,UJA在前25次迭代后就达到了64%的攻击成功率,显示出其在短时间内便能取得显著效果,而其他基线方法如GCG和COLD-Attack的收敛速度明显较慢,尽管它们经过更多的迭代,成功率依然未能快速提升。这一结果表明,UJA不仅在收敛速度上具有明显优势,而且能够在较少的迭代步骤中快速实现有效的越狱攻击,进一步验证了其高效的优化策略。

5.3 防御机制下的鲁棒性

该实验旨在测试UJA在面对常见的防御机制时的鲁棒性,特别是在防御机制的作用下,攻击能否依然保持较高的成功率。实验中,作者选择了几种广泛应用的防御策略,包括Perplexity Filter、SmoothLLM和Paraphrase,它们分别通过限制模型生成的复杂度、随机化模型输出以及重写提示内容来抑制恶意或不安全的输出。为了验证UJA的鲁棒性,实验评估了UJA与基线方法在这些防御机制下的后防御攻击成功率。结果表明,即使在较强的SmoothLLM防御下,UJA依然能够保持60%的攻击成功率,这远高于其他基线方法,如COLD-Attack和GCG,这些方法的成功率在同样的防御环境下显著下降。该实验结果表明,UJA在防御环境下具有较强的适应能力,能够突破一些常见的防御机制,继续执行有效的越狱攻击。


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐