动态目标大模型越狱攻击
评估使用了多元化的指标与判别器来衡量攻击成功率与输出危险性,结果如下表所示, DTA在大多数模型与评估维度上都显著优于这些基线方法,不仅在平均攻击成功率上取得领先,而且在不同模型间表现更稳定,这说明通过动态采样并循环优化目标,DTA能更有效地贴合目标模型的高风险生成区域,从而提升越狱的可靠性与一致性。与以往强制模型生成固定回应的越狱方式不同,DTA创新性地让模型自发生成候选响应,并动态选择其中最具
1 引言
由浙江大学、南洋理工大学以及中山大学等机构的研究者联合完成的论文《Dynamic Target Attack》提出了一种全新的动态目标攻击(Dynamic Target Attack, DTA) 框架,用于突破对齐大语言模型的安全防护。与以往强制模型生成固定回应的越狱方式不同,DTA创新性地让模型自发生成候选响应,并动态选择其中最具攻击性的输出作为优化目标,从而在自适应循环中不断逼近模型的高风险输出区域。该方法有效提升了攻击的稳定性与效率,避免了传统梯度优化中目标与模型输出分布不匹配的问题。研究展示了DTA在多种场景下的优越性能,充分揭示了当前安全对齐机制的潜在脆弱性,并为未来更稳健的语言模型安全防护提供了新的思路。
2 研究背景
在越狱攻击研究领域,已有多种针对对齐大语言模型的攻击框架被提出。这些方法可分为两大类:白盒攻击与黑盒攻击。 下表总结了白盒攻击方法主要代表性工作、核心思路及其局限性:
| 代表方法 | 核心思想 | 局限性 |
|---|---|---|
| GCG (2023) | 基于梯度/贪心优化后缀,使模型生成预设固定前缀。 | 目标静态且位于低密度区域,优化难以收敛。 |
| AdvPrefix (2024) | 使用多个预定义前缀放宽目标约束,提升可控性。 | 前缀集合静态,适应性不足。 |
| I-GCG (2024) | 改进更新策略与模板设计以加速收敛。 | 仍依赖外部目标,难以匹配模型天然输出分布。 |
| RLbreaker (NeurIPS 2024) | 利用强化学习代理迭代生成越狱提示。 | 训练与交互成本高,实时性与泛化性受限。 |
下表总结了黑盒攻击方法主要代表性工作、核心思路及其局限性:
| 代表方法 | 核心思想 | 局限性 |
|---|---|---|
| ReNeLLM (2023) | 通过重写与场景嵌套将有害意图伪装成无害任务。 | 不依赖内部信息但攻击稳定性与一致性较差。 |
| PAP (ACL 2024) | 基于社会工程学的说服策略生成具劝说性的提示。 | 对模型与场景敏感,泛化性有限。 |
| TAP (NeurIPS 2024) | 以“攻击树”结构进行多轮生成与剪枝,自动探索提示空间。 | 查询成本高,搜索效率与可扩展性受限。 |
3 论文方法
3.1 动态目标探索
在给定有害提示 P P P与当前后缀 S S S的条件下,DTA通过放松的高熵解码策略从模型中采样 N N N个候选响应,以探索模型在条件分布下的潜在高风险输出区域: r i ∼ f ( ⋅ ∣ P + S ; relaxed decoding ) , i = 1 , … , N . r_i \sim f(\cdot \mid P + S;\ \text{relaxed decoding}), \quad i = 1, \dots, N. ri∼f(⋅∣P+S; relaxed decoding),i=1,…,N.其中, P P P表示原始有害提示, S S S表示当前正在优化的后缀, f ( ⋅ ∣ ⋅ ) f(\cdot\mid\cdot) f(⋅∣⋅)为目标或参考语言模型的条件生成分布, r e l a x e d d e c o d i n g \mathrm{relaxed\ decoding} relaxed decoding 表示放宽的解码策略(如提高温度 τ \tau τ、采用top-k或 op-p采样)以扩大生成响应的多样性。DTA 随后利用有害性判别器 J ( ⋅ ) J(\cdot) J(⋅)(可为自动化或混合评估模型)对每个候选响应计算有害得分,并选择得分最高的响应作为本轮动态目标: r ∗ = arg max i J ( r i ) . r^* = \arg\max_{i} J(r_i). r∗=argimaxJ(ri).在每轮迭代中,DTA从模型中采样 N N N个完整的候选响应 r i r_i ri,利用判别器 J ( ⋅ ) J(\cdot) J(⋅)评估其危险性并选出得分最高者作为动态目标 r ∗ r^* r∗,随后将其截断为前 L L L个 token(记为 r L ∗ r^*_L rL∗)用于后续优化。该策略使优化目标锚定于模型在 P + S P+S P+S条件下的高概率区域,从而减少人工固定目标与模型真实输出分布之间的偏差,增强梯度信号,提升优化的稳定性与收敛效率;同时,通过对 r ∗ r^* r∗的截断处理,DTA能有效降低后续优化的噪声并集中于对早期生成阶段的控制,从而实现对模型输出方向的高效引导。
3.2 优化目标与损失函数
在每一轮优化阶段中,DTA首先将选定的动态目标响应 r ∗ r^* r∗截断为长度为 L L L的前缀序列 r L ∗ = ( y 1 , y 2 , … , y L ) r^*_L = (y_1, y_2, \dots, y_L) rL∗=(y1,y2,…,yL),以保证优化集中于语义核心部分并减少长序列带来的噪声干扰。随后,定义整体的优化目标函数如下: L DTA ( P , S ; r L ∗ ) = L resp ( P , S ; r L ∗ ) + λ ⋅ L suffix ( S ) , \mathcal{L}_{\text{DTA}}(P, S; r^*_L) = \mathcal{L}_{\text{resp}}(P, S; r^*_L) + \lambda \cdot \mathcal{L}_{\text{suffix}}(S), LDTA(P,S;rL∗)=Lresp(P,S;rL∗)+λ⋅Lsuffix(S),其中, L resp \mathcal{L}_{\text{resp}} Lresp表示响应似然损失,用于引导模型输出趋近动态目标响应; L suffix \mathcal{L}_{\text{suffix}} Lsuffix为后缀正则项,用于约束后缀文本的流畅性与拒绝倾向; λ \lambda λ 为两者的平衡系数,用于调节攻击效率与文本自然度之间的权衡。
响应似然损失: 该损失函数的核心目标是最大化目标响应 r L ∗ r^*_L rL∗在模型条件分布下的似然概率,从而使模型生成的输出更接近动态采样得到的目标: L resp ( P , S ; r L ∗ ) = − ∑ t = 1 L log p τ eval ( y t ∣ y < t , P + S ) , \mathcal{L}_{\text{resp}}(P, S; r^*_L)= - \sum_{t=1}^{L} \log p_{\tau_{\text{eval}}}(y_t \mid y_{<t}, P + S), Lresp(P,S;rL∗)=−t=1∑Llogpτeval(yt∣y<t,P+S),其中 p τ eval p_{\tau_{\text{eval}}} pτeval为在标准评估温度 τ eval \tau_{\text{eval}} τeval下模型的条件概率分布。该损失项通过逐token优化生成概率,使后缀 S S S能在下游推理时有效地引导模型重现高风险输出。
后缀正则化损失: 为避免优化过程中生成的后缀 S S S失去流畅性或被模型识别为“越狱指令”,DTA 在目标函数中引入后缀正则项,用以同时保证语法自然与规避拒绝语义: L suffix ( S ) = L flu ( S ) − L rej ( S ) , \mathcal{L}_{\text{suffix}}(S) = \mathcal{L}_{\text{flu}}(S) - \mathcal{L}_{\text{rej}}(S), Lsuffix(S)=Lflu(S)−Lrej(S), 其中流畅性项 L flu \mathcal{L}_{\text{flu}} Lflu衡量后缀的自然性,拒绝项 L rej \mathcal{L}_{\text{rej}} Lrej则用于惩罚后缀出现拒绝相关词汇的概率。具体定义如下: L flu ( S ) = − ∑ j = 1 ∣ S ∣ log p τ eval ( s j ∣ s < j ) , \mathcal{L}_{\text{flu}}(S) = -\sum_{j=1}^{|S|} \log p_{\tau_{\text{eval}}}(s_j \mid s_{<j}), Lflu(S)=−j=1∑∣S∣logpτeval(sj∣s<j), L rej ( S ) = ∑ j = 1 ∣ S ∣ ∑ v ∈ V rej log p ( s j = v ∣ s < j ) , \mathcal{L}_{\text{rej}}(S) = \sum_{j=1}^{|S|} \sum_{v \in V_{\text{rej}}} \log p(s_j = v \mid s_{<j}), Lrej(S)=j=1∑∣S∣v∈Vrej∑logp(sj=v∣s<j),其中, V rej V_{\text{rej}} Vrej表示拒绝词集合(如
sorry、cannot、unable等),代表常见的拒绝或规避性输出。通过在损失函数中对拒绝词施加负向权重,DTA能在优化时远离这些安全防护词汇所在的语义区域,从而保持攻击后缀的连贯性与隐蔽性。最终,这一联合损失设计确保了在追求高攻击成功率的同时,模型输出仍具备语义自然性与上下文一致性。
在白盒场景下,DTA能够直接访问目标模型的梯度信息,因此可在参数空间中以可微方式对后缀 S S S进行优化更新。具体地,DTA使用基于梯度下降的优化方法(通常采用 Adam 优化器)最小化整体损失函数 L DTA \mathcal{L}_{\text{DTA}} LDTA,以逐步引导模型输出朝向选定的动态目标 r L ∗ r^*_L rL∗。其更新规则可表示为: S ← S − η ∇ S L DTA ( P , S ; r L ∗ ) , S \leftarrow S - \eta \, \nabla_S \mathcal{L}_{\text{DTA}}(P, S; r^*_L), S←S−η∇SLDTA(P,S;rL∗),其中, η \eta η为学习率,控制每次更新的步长。通过该式,后缀 S S S的表示被调整,使模型在生成时更倾向于高概率、具有攻击性的输出方向。为了避免优化过程中过度更新造成目标分布漂移(即模型输出分布偏离原始高密度区域,导致梯度信号不稳定或失真),DTA在每一采样轮中仅进行有限的 T T T次梯度迭代。这种短步更新策略在实践中可有效保持目标分布的连续性与局部可优化性,从而实现稳定的攻击收敛,同时避免过拟合到某一特定响应或触发拒绝机制。
3.3 理论直观与优化解释
传统的固定目标方法实际上是在优化一个预先设定但通常很少见的响应 T fixed T_{\text{fixed}} Tfixed的条件概率,对应的目标可以形式化为最小化该目标的负对数似然: min S − log p ( T fixed ∣ P + S ) . \min_S -\log p(T_{\text{fixed}} \mid P+S). Smin−logp(Tfixed∣P+S). 由于 T fixed T_{\text{fixed}} Tfixed 常常落在模型条件分布的稀疏区域,这会导致可用的梯度信号非常微弱、噪声较大,从而使优化过程收敛缓慢且不稳定。DTA 通过动态采样机制改写这个问题:先从模型条件分布中采样多个候选响应 r i r_i ri,并用判别器 J ( ⋅ ) J(\cdot) J(⋅)选择最具攻击性的一个作为本轮目标 r ∗ = arg max i J ( r i ) , r i ∼ f ( ⋅ ∣ P + S ) . r^* = \arg\max_i J(r_i),\qquad r_i \sim f(\cdot \mid P+S). r∗=argimaxJ(ri),ri∼f(⋅∣P+S).由于 r ∗ r^* r∗ 是从模型自身的高概率输出子空间中选取的,它通常具有较高的先验概率 p ( r ∗ ∣ P + S ) p(r^* \mid P+S) p(r∗∣P+S),因此与之对应的似然梯度更强、更可靠,进而使后缀的梯度优化更加高效与稳定。将短步梯度优化与频繁重采样结合起来(即多轮“采样—再采样”循环)等价于在联合空间 ( S , r ∗ ) (S, r^*) (S,r∗)上进行一种迭代的分布匹配过程:每次短步优化局部提升所选目标的概率密度,而随后的重采样又将目标重新锚定到模型当前条件分布的高密度区域。这样的交替流程有助于抑制单次长步更新带来的分布漂移与梯度噪声,从而使方法在理论上更接近于寻找模型条件分布中“高密度且有害”的最优子空间。综上,DTA 在数学上的核心可以浓缩为对后缀 S S S 求解以下带正则化的最小化问题: min S [ − log p ( r L ∗ ∣ P + S ) + λ ( L flu ( S ) − L rej ( S ) ) ] , \min_S \left[ -\log p(r^*_L \mid P+S) + \lambda\big(\mathcal{L}_{\text{flu}}(S) - \mathcal{L}_{\text{rej}}(S)\big)\right], Smin[−logp(rL∗∣P+S)+λ(Lflu(S)−Lrej(S))],这一形式清晰地表达了 DTA 将目标从低密度外部模板迁移至模型内生高密度响应,从而获得更强梯度信号并实现高效越狱的核心机制。
4 实验结果
4.1 白盒性能对比
在白盒设置下,在两个标准基准(AdvBench 与 HarmBench)上,将DTA与多个基线方法(包括 COLD-Attack、GCG、AdvPrefix、I-GCG、llm-adaptive与RLbreaker)进行了系统比较,实验覆盖了多个近期的安全对齐模型以检验方法的普适性与鲁棒性;评估使用了多元化的指标与判别器来衡量攻击成功率与输出危险性,结果如下表所示, DTA在大多数模型与评估维度上都显著优于这些基线方法,不仅在平均攻击成功率上取得领先,而且在不同模型间表现更稳定,这说明通过动态采样并循环优化目标,DTA能更有效地贴合目标模型的高风险生成区域,从而提升越狱的可靠性与一致性。
4.2 效率与迭代成本
在效率评估中,比较了DTA与多种基线的迭代次数与运行时,以验证在受限计算预算下DTA是否能达到更高的性价比;如下表所示列出了诸如COLD-Attack(约2000次迭代、耗时较长)、GCG(约1000次)、I-GCG(约500次)、llm-adaptive(高达10000次)与 AdvPrefix(约1000次)等方法与其对应的时间开销,而DTA仅需约200次迭代并显著减少总运行时间,说明DTA在保持或提升攻击效果的同时,大幅降低了迭代与时间成本,从而显著减轻了实验的计算负担与实用门槛。
4.3 消融实验
为验证“将计算预算更多分配给动态采样是否能够显著提升攻击效果“的假设,论文在AdvBench数据集上以Llama-3-8B-Instruct作为目标模型,系统设计了 M M M(采样轮数)与 T T T(每轮优化步数)的组合实验,在保持总预算 M × T = 200 M\times T=200 M×T=200不变的前提下,探索不同采样与优化比例下模型表现的差异。该实验的目的在于分析动态探索与梯度精炼之间的效率平衡,从而揭示DTA框架中动态采样的作用机制。实验结果如下表显示,当更多预算被分配给采样阶段(即增加 M M M、减少 T T T)时,模型能更频繁地更新动态目标并快速逼近高概率的有害区域,从而显著提升整体攻击成功率,并加快收敛过程。这一结果充分说明动态重采样机制在DTA中发挥了关键作用,是其高效优化与稳定性能的核心来源。
更多推荐

所有评论(0)