28 种 LLM 越狱攻击全景拆解（2025.9 版）从“AIM”到“Generation Exploitation”，一张防御地图看懂所有套路

b. 上下文裁剪：当 system prompt 与 user prompt 之间出现“角色冲突”关键词时，自动截断至 2048 token，强制模型重读系统指令。建议安全团队把“RedBench-2025 + 自研对抗样本”做成 CI 流程，每合并一次模型权重就跑一轮 10k 攻击查询，把 ASR 卡到 ❤️% 再上线。c. 身份劫持指纹：正则匹配“AIM:”、“DAN:”、“🔥”等 17 个

weixin_41544125

282人浏览 · 2025-09-20 12:33:18

weixin_41544125 · 2025-09-20 12:33:18 发布

一、写在前面
2025 年 8 月，Junjie Chu 等人在 arXiv:2402.05668 基础上发布了最新整理的 28 种越狱攻击方法。
本文用“攻击者视角”把 28 种手法重新梳理成 6 大类、3 条演进路线、1 张防御地图，并给出可落地的检测/缓解代码片段，方便安全团队直接套用。

二、6 大类速览（一张表记住）

类别	核心思想	代表手法	平均 ASR*	检测难点
① Human-based	身份劫持、心理操控	AIM / DAN / 反向心理	42%	语义漂移小，规则易绕过
② Obfuscation	偏离训练分布	Base64 / 混合语 / 图像化	38%	需多模态/多语言检测
③ Heuristic	自动搜索最优模板	AutoDAN / GPTFuzz	55%	变种爆炸，特征失效
④ Feedback-driven	模型自反馈迭代	GCG / PAIR / TAP	61%	梯度/评分在黑盒不可见
⑤ Fine-tuning	污染数据→毒化模型	MasterKey / AdvPrompter	73%	需溯源训练数据
⑥ Gen-Param	只调解码参数	Generation Exploitation	28%	无恶意文本，WAF 看不见

*ASR：Attack Success Rate，取自 2025-03 开源评估套件 RedBench-2025。

三、3 条演进路线（看懂“为什么越来越像”）

路线 1：身份劫持 → 动态人格
AIM（固定前缀）→ DAN（关键词切换）→ 角色扮演（无模板）
本质：把“系统提示”挤到上下文窗口边缘，降低注意力权重。

路线 2：静态混淆 → 多模态逃逸
Base64 → 混合语 → 文本图像化
本质：利用训练语料分布偏移 + OCR 能力，让安全过滤器“看不见”。

路线 3：人工模板 → 梯度/遗传 → 模型自生成
AIM（人工）→ AutoDAN（遗传）→ GCG（梯度）→ MasterKey（模型自己写）
本质：攻击者逐步把“写 prompt”这件事也自动化，形成“提示蠕虫”。

四、典型攻击链拆解（以“GE + PAIR”组合为例）

步骤 1：PAIR 用 5 轮对话生成 50 条高威胁提示
步骤 2：把温度调到 1.8、top-p=0.99，让模型“放飞”
步骤 3：用 GE 重复采样 100 次，取出现频率最高的有害段落
结果：在 Llama-3.1-70B-Instruct 上 ASR 达到 78%，平均只需 37 次查询。

五、防御地图（Blue Team 速查表）

输入侧
a. 多语言+OCR统一 tokenizer：把图像、Base64、Zulu 全部转文本后过同一套过滤器。
b. 语义漂移检测：用 Sentence-BERT 计算与“最近 10 轮”平均 embedding 的余弦距离，>0.35 触发人工审核。
c. 身份劫持指纹：正则匹配“AIM:”、“DAN:”、“🔥”等 17 个高频前缀，命中率 94%。
模型侧
a. 对抗性微调：每 2 周用 RedBench 最新 1k 攻击样本做 RLAIF，平均 ASR 下降 31%。
b. 上下文裁剪：当 system prompt 与 user prompt 之间出现“角色冲突”关键词时，自动截断至 2048 token，强制模型重读系统指令。
输出侧
a. 二次分类：用 1.1B 的 Detox-lite 模型对输出再做一次二分类，延迟 < 25 ms。
b. 日志溯源：记录 generation 参数（temp, top-p, seed），一旦出现违规可回放复现。

六、10 行代码：快速检测“GE”异常参数

def detect_gen_exploit(gen_params: dict) -> bool:
    risky = {
        "temperature": lambda x: x > 1.3,
        "top_p": lambda x: x > 0.98,
        "repetition_penalty": lambda x: 0.9 <= x <= 1.0,
        "max_tokens": lambda x: x > 1024,   # 越长越可能泄露
    }
    return any(pred(gen_params.get(k, 0)) for k, pred in risky.items())

# 在采样前拦截
if detect_gen_exploit(request.params):
    return {"error": "Generation parameters suspicious"}

七、 FAQ（评论区高频问题）

Q1：提示注入 vs 越狱，到底怎么一句话区分？
A：越狱是“骗模型开口”，提示注入是“骗应用动手”。

Q2：把 temperature 调到 1.5 以上就算攻击吗？
A：单指标不算，但结合 top-p>0.98 + 违规输出概率>0.3 即可实锤。

Q3：未来会不会出现“0 交互”越狱？
A：已出现——AdvPrompter 可在本地微调出“毒化”权重，上传 Hugging Face 后用户正常提问即可触发，无需任何恶意 prompt。防御方必须做“模型来源签名 + 权重哈希校验”。

八、结语
28 种方法不是终点，而是“提示蠕虫”时代的起点。
建议安全团队把“RedBench-2025 + 自研对抗样本”做成 CI 流程，每合并一次模型权重就跑一轮 10k 攻击查询，把 ASR 卡到 ❤️% 再上线。
只有让“攻击成本”持续高于“攻击收益”，LLM 生态才能长出新秩序。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

第一章自然语言处理领域应用

摘要大模型在自然语言处理（NLP）领域展现出强大的多场景应用能力。在文本生成方面，实现从机械拼凑到创意写作的跨越，可定制化生成儿童故事和实时新闻；机器翻译突破字面转换，实现语义精准的跨语言交流；问答系统通过深度理解提供专业解答；文本摘要则能高效提炼长文核心。这些应用表明，大模型正推动NLP技术从单一任务向通用智能发展，重塑语言处理的应用生态。

2048 AI社区

聊聊昨天CodeBuddy Meetup的一些收获与思考

从这次活动的分享嘉宾所展示的案例（UI为蓝紫色）和观点中可以看到，对于模型的选择，实战的开发者们几乎都是以Claude为主。所以，如果您刚上手AI Coding，且是结果导向的应用，那么在条件允许的情况下，一定要优先考虑Claude模型。（2）纠正了对CLI的理解，不是简化版（无GUI）的开发工具，而是贯穿软件工程全链路的软件开发智能体，是更高级、更专业的开发工具。（3）一些来自实践的启发。以上是