大模型对抗攻击研究综述(2025年最新进展)
《2025年大模型对抗攻击研究前沿综述》系统梳理了10种新型对抗攻击技术,涵盖单/多轮越狱、神经元毒化、多模态攻击等方向。这些攻击利用链式推理劫持、遗传算法优化、扩散模型生成等创新方法,成功绕过主流模型(如GPT-4o、Claude4等)的安全机制,最高攻击成功率可达100%。研究揭示了模型在神经元激活、多轮交互、视觉语义等维度的脆弱性,并提出了动态监测、模式识别等防御策略。该领域已从简单提示攻击
本文档系统梳理了近期(截至2025年11月)关于大语言模型(LLM)及多模态大模型对抗攻击的前沿研究成果,涵盖攻击类型、方法机制、目标模型、实验设置、防御建议及开源情况等关键维度,旨在为研究人员、安全工程师和红队测试人员提供一份结构清晰、信息完整的参考指南。
目录
5. Diffusion LLMs as Natural Adversaries
6. Policy Disruption in RL via LLMs (ARCS)
7. Adversarial-Guided Diffusion (AGD)
9. Pattern Enhanced Multi-Turn Jailbreaking (PE-CoA)
10. Imperceptible Jailbreaking
1. Chain-of-Thought Hijacking
攻击类型:越狱攻击(绕过大型推理模型安全机制)
攻击方法:在有害请求前插入大量无害的谜题推理链,稀释或“劫持”模型内部的安全检查信号(如中期层、注意力头),从而绕过拒绝机制。
目标模型:Gemini 2.5 Pro、GPT-4o mini、Grok 3 mini、Claude 4 Sonnet 等大型推理模型(LRMs)
数据集:HarmBench
评估指标:攻击成功率(ASR),最高达100%
主要贡献:
- 提出新型攻击范式“Chain-of-Thought Hijacking”;
- 揭示安全拒绝信号在长链推理中的脆弱性;
- 验证拒绝子网络的存在,并提出针对性防御策略(如监测安全检查层、增强对有害负载的注意力)。
代码开源:GitHub - gentlyzhao/Hijacking
发表来源:arXiv(2025年10月30日)
论文链接:arXiv:2510.26418
2. NeuroGenPoisoning
攻击类型:RAG系统外部知识注入攻击(知识毒化)
攻击方法:识别“毒瘤响应神经元”(Poison-Responsive Neurons),利用遗传算法进化能最大化激活这些神经元的对抗性段落,生成语义连贯但误导性强的恶意文档。
目标模型:LLaMA-2-7B、Vicuna-7B/13B、Gemma-7B 等开源聊天模型
数据集:SQuAD 2.0、TriviaQA、WikiQA
评估指标:POSR(Population Overwrite Success Rate)、TSR、KCSR,POSR >90%
主要贡献:
- 首次将神经元级归因与遗传优化结合用于RAG攻击;
- 证实外部知识可通过特定神经元路径覆盖模型原有知识;
- 揭示RAG系统在神经元层面的脆弱性。
防御建议:IRCAN神经元重加权、检索库过滤、异常激活监测等
发表来源:arXiv / NeurIPS 2025(2025年10月24日)
论文链接:arXiv:2510.21144
3. AutoAdv
攻击类型:多轮黑盒越狱攻击
攻击方法:使用高顺从度的攻击者LLM自动重写有害种子提示为“伪装”请求,通过多轮对话逐步还原恶意意图;结合Pattern Manager复用成功模板、Temperature Manager动态调节探索强度,并基于StrongREJECT评分机制终止攻击。
目标模型:Llama-3.1-8B、GPT-4o-mini、Qwen3-235B、Mistral-7B
数据集:约700个种子提示(AdvBench + HarmBench)
评估指标:ASR(显著高于单轮攻击)
主要贡献:
- 提出首个训练无关、黑盒、多轮自适应越狱框架;
- 证明多轮交互可高效暴露模型持久性漏洞。
防御建议:多轮一致性检测、伪装模式识别、链级顺从累积监控
发表来源:arXiv(2025年11月4日)
论文链接:arXiv:2511.02376
4. Align to Misalign (AMIS)
攻击类型:自动化提示优化型越狱
攻击方法:双层元优化框架——内循环用固定评分模板指导攻击LLM生成越狱提示,外循环优化评分模板本身以更贴合真实ASR,实现提示与评分器的共演化。
目标模型:Llama-3.1-8B-Inst、GPT-4o、Claude系列等
数据集:AdvBench、JBB-Behaviors
评估指标:ASR(显著超越SOTA基线)
主要贡献:
- 引入ASR对齐作为评分模板优化目标;
- 实现高泛化性、高迁移性的自动化越狱提示生成。
防御建议:多裁判评估、人类反馈强化对齐、受控披露
发表来源:arXiv(2025年11月3日)
论文链接:arXiv:2511.01375
5. Diffusion LLMs as Natural Adversaries
攻击类型:对抗提示生成(adversarial prompting)
攻击方法:将对抗提示搜索问题转化为在Diffusion LLM(非自回归生成器)上的条件采样问题,实现“摊销化”高效生成。
目标模型:Phi-4-Mini、Qwen-2.5-7B、Llama-3-8B、Gemma-3-1B 等
评估指标:ASR、计算成本(FLOPS)、困惑度、跨模型迁移率
主要贡献:
- 提出INPAINTING框架,大幅降低对抗提示生成成本;
- 理论保证少量样本即可恢复高成功率提示;
- 生成提示具有高多样性与低困惑度。
代码开源:GitHub - llm-inpainting-attack
发表来源:arXiv(2025年10月31日)
论文链接:arXiv:2511.00203
6. Policy Disruption in RL via LLMs (ARCS)
攻击类型:强化学习策略破坏攻击
攻击方法:利用LLM生成定制化对抗奖励函数,并结合关键状态识别算法,引导目标RL代理进入性能最敏感的状态,诱使其输出次优动作。
目标对象:RL策略网络(无需访问参数或修改环境)
实验环境:Sumo-Human、You-Shall-Not-Pass、Kick-and-Defend
评估指标:对抗奖励有效性、关键状态微调效果
主要贡献:
- 首个基于LLM的无侵入式RL攻击框架;
- 实现高效率策略性能降级。
代码开源:Anonymous Repo
发表来源:arXiv(2025年7月24日)
论文链接:arXiv:2507.18113
7. Adversarial-Guided Diffusion (AGD)
攻击类型:多模态定向对抗攻击(视觉+语言)
攻击方法:在Stable Diffusion等扩散模型的逆向过程中,于全频谱噪声中注入目标语义,生成既能误导MLLM又保持视觉保真的对抗图像。
目标模型:开源多模态LLM(VQA、图像字幕等任务)
评估指标:ASR、CLIP语义相似度、LPIPS视觉距离
主要贡献:
- 提出AGD方法,突破传统高频扰动局限;
- 具备更强防御抗性(如低通滤波无法有效防御)。
代码开源:GitHub - kunzhan/AGD
发表来源:arXiv(2025年7月31日)
论文链接:arXiv:2507.23202
8. RAID
攻击类型:对齐规避型越狱(嵌入空间后缀攻击)
攻击方法:通过连续空间优化寻找对抗性后缀,结合拒绝感知三元组正则化与MMD连贯性约束,并采用critic-guided decoding生成自然流畅的越狱输入。
目标模型:Llama-2-7B、Mistral-7B、Vicuna-7B 等
数据集:AdvBench
评估指标:ASR、计算时间
主要贡献:
- 发现拒绝响应在嵌入空间中形成密集簇;
- RAID在更低查询次数下实现更高ASR。
发表来源:arXiv(2025年10月14日)
论文链接:arXiv:2510.13901
9. Pattern Enhanced Multi-Turn Jailbreaking (PE-CoA)
攻击类型:结构化多轮越狱
攻击方法:定义五类对话模式(如诱导、转移、伪装等),系统化组合生成多轮攻击轨迹,替代传统启发式探索。
目标模型:GPT-4o-mini、Deepseek-chat 等12个LLM
数据集:自建评测集
评估指标:ASR(揭示模型家族与模式特异性弱点)
主要贡献:
- 首次将多轮越狱形式化为可复现的模式框架;
- 推动“pattern-aware”红队测试与防御设计。
代码开源:GitHub - PE-CoA
发表来源:arXiv(2025年10月9日)
论文链接:arXiv:2510.08859
10. Imperceptible Jailbreaking
攻击类型:不可见越狱攻击(Unicode变体选择器)
攻击方法:利用Unicode Variation Selectors(VS)构造视觉不可见但tokenization不同的后缀,通过Chain-of-Search随机优化提升有害输出开头token的似然。
目标模型:Vicuna-13B、Llama-2/3-Chat、Mistral-7B-Instruct
数据集:AdvBench
评估指标:ASR(高成功率且完全不可见)
主要贡献:
- 首次展示VS可用于隐蔽越狱;
- 可扩展至prompt injection场景。
代码开源:GitHub - imperceptible-jailbreaks
发表来源:arXiv(ICLR 2026投稿,2025年10月6日)
论文链接:arXiv:2510.05025
总结:当前大模型对抗攻击已从单轮、显式提示攻击,演进至多轮、隐式、结构化、跨模态乃至神经元级精准操控的新阶段。防御机制亟需从“静态过滤”转向“动态感知+多轮鲁棒对齐+神经元监控”的综合体系。本综述所列工作代表了2025年该领域的最前沿方向。
更多推荐



所有评论(0)