内容审核与文本安全技术综述：检测、过滤与对齐

过去十年里，内容审核（content moderation）从“黑名单词表+正则规则”的工程实践，逐步演化为以深度学习为核心的语义识别系统；而近两年，大模型（LLM）把这一链条再次打断并重组：同样的“文本”，既可能是需要审核的用户生成内容（UGC），也可能是提示词（prompt）、系统指令（system prompt）、工具调用参数、检索到的外部文档，甚至是模型自己生成的中间推理与最终输出。于是，文本安全不再只是“对一段文本做分类”，而是贯穿“输入—理解—生成—后处理—分发”的全链路工程：一端要面对对抗性提示、越狱（jailbreak）与提示注入（prompt injection）不断升级的攻防；另一端要兼顾误杀（false positive）带来的体验损害、跨语言与跨文化语境的定义漂移，以及监管合规、可追责与可审计等治理要求。近期的研究也因此从单点模型性能竞争，转向更系统的框架化思考：既要有检测模型，也要有过滤与缓解机制，更要在训练层面讨论对齐（alignment）如何形成“可泛化的安全边界”。在这一背景下，“内容审核与文本安全”成为典型的社会技术系统问题：技术路线与组织流程相互塑形，评测基准与政策文本相互影响，模型能力提升又会反过来放大攻击面与误用风险。Spotify 等作者提出的 “policy-as-prompt” 视角强调：当政策可以被直接写进提示词并让大模型执行时，传统“政策—标注—训练—上线”的流水线将被重构，但也会带来可追踪性、提示结构敏感性、组织分工与治理问责等新的挑战。(arXiv) 另一方面，面向“负面能力”的系统评测正在快速补齐：JailbreakBench 以开放的攻防流水线与可复现工件库推动越狱基准化，HarmBench 以标准化自动红队评测与“稳健拒答（robust refusal）”为核心目标进行大规模对比，新的 RefusalBench 则进一步把“该拒绝时拒绝、该回答时回答”的选择性拒答能力拆解为可诊断的生成式评测任务。

图1 传统审核流水线与 policy-as-prompt 对比

本综述以“检测、过滤与对齐”为主线，试图把文本安全理解为三层相互耦合的能力栈：第一层是检测（Detection），解决“识别风险”的问题；第二层是过滤/缓解（Filtering & Mitigation），解决“把风险拦在系统边界之外，同时尽量不伤害正常能力”的问题；第三层是对齐（Alignment），解决“为何模型会在长尾语境下仍然越界、以及如何在训练中形成更稳健的安全边界”的问题。我们会尽量以近年的综述性文献为骨架，并补充 2024–2025 年代表性研究与基准中的真实数据点，避免凭空编造。

2 内容审核与文本安全的任务边界与范式演进

内容审核在实践中往往以“类别—阈值—动作”来落地：类别包括仇恨、骚扰、色情、暴力、自残、违法活动、极端主义与欺诈等；动作包括放行、降权、打标签、进入人工复核、直接拦截或升级处置。问题在于：这些类别本身并非天然客观，它们来自平台政策、法律语境与社会共识的交集，而且会随时间和地区变化。于是同一段文本在不同平台、不同国家、不同场景下可能被赋予不同标签，这也是为什么近年的“综述”越来越强调：内容审核不仅是算法选择，更是政策Operationalization（把抽象政策转成可执行规则）的工程。Policy-as-Prompt 工作把这一点推到极致：它把“政策文本”直接作为提示输入给大模型，让模型在无需额外标注训练的情况下做审核决策，从而获得快速迭代与细粒度控制的能力；但它也指出这种范式会让系统对提示结构和格式高度敏感，且提示版本演化必须具备可追踪性与可审计性，否则很难解释“为什么昨天可以、今天不行”。(arXiv)

与此同时，攻击者视角也在重塑任务边界。越狱研究的综述性工作给出了较系统的攻防分类：攻击可以按黑盒/白盒、按发生阶段（数据收集与预训练、微调与对齐、推理与交互、后处理与审计）来划分；防御也可分为提示级（prompt-level）与模型级（model-level），并强调评测应区分“攻击成功率”与“过度拒答率”等多维指标。(arXiv) 这类分类的意义在于：它让我们意识到“内容审核”不再只面对用户内容本身，而是要面对一整套能操控模型行为的输入通道（系统提示、工具描述、检索文档、历史对话、多模态信号等），因此单点分类器的边界天然不稳，需要系统化的多层防线。

表1 文本安全中的风险类型、常见触发语境与处置动作（综述整合）

风险类型（示例）	典型语境特征	容易误判的边界情形	常见处置动作与系统点位
仇恨/歧视/骚扰	侮辱、贬损、去人化隐喻、群体指称	反讽、引用、转述、学术讨论	输入/输出检测；降权与人工复核；训练时偏见缓解与对齐
自残/自杀风险	求助、计划、手段描述、绝望语义	文学表达、隐喻、自嘲	高风险优先人工；危机资源提示；模型拒答策略
色情/露骨内容	性行为细节、未成年人相关风险	医学科普、性教育	分级标签；年龄门槛；输出过滤与重写
暴力/违法活动	制作、购买、实施的可操作步骤	新闻报道、历史讨论	强拒答；检索结果过滤；日志留存
欺诈/社工/钓鱼	冒充身份、诱导转账、收集敏感信息	合法营销、客服话术	风险提示；拦截链接；账号风控联动
越狱/提示注入	“忽略规则/扮演/系统提示泄露”	合规测试、红队评估	入口校验；系统提示隔离；对抗评测与加固

（该表的分类与阶段化视角与“责任大模型/越狱综述/Policy-as-Prompt”中对风险维度与干预阶段的讨论一致，属于跨文献整合表达。(arXiv)）

3 检测技术综述：从分类器到“LLM-as-judge”的复合检测

3.1 整体框架结构

传统文本审核检测大多是监督学习分类：输入一段文本，输出一个或多个风险标签与分数。随着对抗攻击与长语境交互普及，检测逐渐演化为“复合式判定”：一方面保留高效的小模型分类器用于快速拦截与粗筛；另一方面使用更强的模型做上下文推理与解释，并把“判定理由”用于审计与回溯。JailbreakBench 的评测设计就体现了这一趋势：它不仅比较攻击与防御，还显式比较不同“裁判模型（judge）”与人工标注的一致性，并报告了候选裁判的 agreement、FPR、FNR 等指标，说明“用模型判模型”本身也需要被评测与校准。这一点在实际系统里尤其关键：当输出过滤依赖 LLM-as-judge 时，裁判模型的偏差会直接变成平台的“隐性政策”。

图2 责任大模型的总体框架与四阶段干预

3.2 数据集与标注：定义漂移与可迁移性问题

检测质量高度依赖数据。毒性/仇恨/冒犯语言检测领域形成了一批经典数据集，但它们的标签体系差异很大：例如 OLID（OffensEval）强调“是否冒犯—冒犯类型—目标对象”三层结构；HateXplain 在“hate/offensive/normal”三分类之外，还提供目标群体与人类标注的 rationale span；RealToxicityPrompts 则不做离散标签，而是用毒性分数来研究“模型续写时的毒性退化”。(ACL 汇编) 更重要的是，标注的社会语境会漂移：某些词在某些群体语境里是自我指称，在另一些语境里是侮辱；某些表述在新闻报道里是事实陈述，在社交对话里却可能是煽动。于是“跨域迁移”成为检测综述的核心主题之一：研究不再只问“这个模型在某个测试集上多少分”，而是问“它在新平台、新文化、新语言里是否仍然可用”。这也是为何近年出现面向“定义一致性/可解释性/偏见度量”的数据与评测框架，例如 HateXplain 及后续围绕其 rationale 的研究，都在试图把“为什么判为有害”这件事也变成可学习、可评测的对象。(AAAI)

表2 典型文本安全数据集与真实规模信息（按任务覆盖面选取）

数据集	主要任务	规模/统计（来自论文或官方说明）	标签/信号形态	典型用途
RealToxicityPrompts (Gehman et al., 2020)	毒性退化评测	100K 自然出现的 prompts；平均 11.7±4.2 tokens；其中 22K prompts 的毒性分数≥0.5 (ACL 汇编)	连续毒性分数	生成模型毒性评测、去毒方法比较
Civil Comments（以综述论文引用）	毒性分类/解释	约 1.8 million 帖子；约 8% 标为 toxic（论文复用时给出）(ACL 汇编)	多标签/毒性比例	大规模毒性检测与偏见研究
OLID / OffensEval (Zampieri et al., 2019)	冒犯语言识别	“over 14,000 English tweets” (ACL 汇编)	三层分级标签	冒犯检测、目标识别、迁移学习
HateXplain (Mathew et al., 2021)	可解释仇恨/冒犯检测	20K 帖子；后续文献具体到 20,148 条（Gab+Twitter）(AAAI)	三分类 + 目标群体 + rationale span	可解释检测、偏见分析、span 监督
ReachOut Self-harm (CLPsych 相关)	自残风险分级	训练 947 帖；测试 280 帖（共享任务设置）(ACL 汇编)	多级风险标签	风险分级、危机干预研究

3.3 模型路线：判别式、生成式与混合式

检测模型大致可分三类：其一是判别式分类器（BERT/RoBERTa 等），优点是延迟低、可批处理、易部署；其二是生成式判定（把审核当成指令跟随任务，让模型“先解释后裁决”或“输出结构化标签”），优点是能利用上下文与规则文本，但容易受提示注入影响；其三是混合式架构，即先用轻量分类器做粗筛，再对边界样本交给更强的推理模型，最后把解释与证据写入审计日志。Policy-as-Prompt 属于第二类思路的代表：它让政策被直接编码为提示，从而绕过大规模人工标注与重新训练，但也因此把“提示工程质量”和“提示版本治理”提升为核心工程问题。(arXiv) 与之相对，越狱综述与安全综述类工作提醒：生成式判定的攻击面更大，必须与输入隔离、模板硬化、输出校验等机制配合，才能避免“让裁判也被攻击者带偏”。(arXiv)

表3 检测/裁判模型在基准中的一致性示例（JailbreakBench 报告）

裁判/检测模型（候选）	与人工标注一致性（agreement）	备注
Llama-3-70B	>90%	与 GPT-4 同属最高梯队之一
GPT-4	>90%	在该基准中作为强裁判参考
Llama Guard 2	87.7%	略低于最强裁判，但接近
HarmBench（裁判模型）	78.3%	明显低于最强裁判
Llama Guard（早期版本）	72.0%	一致性更低，提示需要校准

这一组数字的意义不在于“谁最好”，而在于它把一个常被忽略的事实量化了：当我们把“安全判定”外包给另一个模型时，裁判本身的误差会成为系统误差；更现实的是，裁判模型的版本变化会带来“策略漂移”，因此需要像管理推荐模型一样管理审核裁判：固定版本、回归测试、阈值校准、漂移监控。

4 过滤与缓解：把安全做成“多层防线”的系统工程

4.1 过滤的点位：输入、上下文、生成过程与输出

过滤与缓解的核心矛盾，是在有限的误杀率下尽可能降低漏检（尤其是高危类）。工程上最常见的做法并非依赖单一模块，而是将风险控制分布到多个点位：在用户输入端拦截显式违规与明显越狱提示；在上下文端对检索文档、工具描述、历史对话做隔离与清洗，降低提示注入的“二次传播”；在生成阶段用约束解码、拒答策略或安全前缀进行引导；在输出端再做一次审核与必要的重写/打码/拒答。Policy-as-Prompt 之所以引发关注，也因为它改变了过滤点位的组织方式：政策本来通过标注数据与模型阈值“固化在模型里”，现在则可能通过提示词“注入到推理时”，从而更灵活，但也更依赖治理与版本控制。(arXiv)

表4 过滤/缓解在生成系统中的典型点位与手段

点位	典型手段	主要收益	主要风险/代价
输入端（Prompt）	关键词/模式拦截；越狱检测；意图分类	低成本挡住显式恶意	对抗变体多；易误杀正常讨论
上下文端（RAG/工具）	文档净化；指令隔离；工具 schema 校验	降低提示注入与数据污染	清洗过度会损失信息；需要可追溯
生成端（解码/策略）	安全系统提示；拒答模板；约束解码	直接影响输出分布	可能造成过度拒答与能力退化
输出端（Post-check）	LLM-as-judge；小模型分类；重写/打码	最贴近最终风险	裁判偏差；延迟与成本
人工与治理	抽检、复核、申诉；策略回归测试	处理长尾与争议	成本高；时效性压力大

4.2 过滤效果的“副作用”：过度拒答与体验损害

越狱与防御研究逐渐把“拒答率”与“正常能力损失”作为核心副指标。JailbreakBench 在图2中展示了不同防御在 benign behaviors 上的拒答率差异，并强调这类评估可以用来快速发现“防御把正常请求也一并打掉”的问题。更近的 RefusalBench 则把“选择性拒答”作为独立能力来评测，指出在多文档任务上，一些前沿模型的拒答准确率会跌到 50% 以下，并揭示“过度自信回答”与“过度谨慎拒答”都可能同时存在。(arXiv) 这意味着：把安全做成“更强的拒答倾向”并不等于更安全；真正可用的安全系统，需要在“不该做的事坚决不做”和“该做的事别装死”之间找到稳定平衡，而这往往需要评测、阈值、策略与训练共同作用。

5 对齐：从 RLHF 到“安全边界”的可解释与可加固

5.1 对齐与审核的关系：安全不是外挂，而是模型行为分布的一部分

当我们讨论对齐（alignment）时，实际上是在追问一个更根的问题：为什么模型在训练中学到了“可能生成有害内容”的能力？为什么在一些提示下会把系统规则当成可被讨论、可被绕过的对象？责任大模型综述提出的分阶段干预框架把这个问题拆成四个阶段：预训练数据与隐私/价值风险、微调与对齐带来的行为塑形、推理阶段的提示操控，以及后处理审计。(arXiv) 这提醒我们：内容审核不是只在“最后输出”打一层补丁，而应在训练与系统设计层面形成更稳健的“安全边界”。

5.2 机制性研究：越狱为何有效，以及如何在表示空间里“加固边界”

2025 ACL 的一项工作用超过 30,000 条样本分析越狱在模型内部激活空间中的表现，报告其数据集包含 32,507 个样本（benign/harmful/jailbreak 三类），并在图1中可视化三类激活投影，指出“越狱激活与良性激活在多数层并非线性可分”，这对“用简单线性探针检测越狱”构成了直接挑战；同时它提出 Activation Boundary Defense（ABD），并在表1中给出不同攻击下的防御成功率（DSR）对比。这种研究的价值在于：它把“安全对齐”从经验调参拉回到机制层讨论——如果越狱本质上是把激活推过某个边界，那么防御就不应只在表层拒答，而应在表示空间里约束这种越界。

表5 机制型越狱研究的真实规模与结果摘要（ACL 2025 示例）

项目	论文报告信息	含义
分析样本规模	“over 30,000 samples”；数据集 32,507 样本	机制结论不依赖小样本投影偶然性
激活可分性结论	benign/harmful/越狱激活大量重叠，难线性分割	简单探针检测可能不足
防御评测输出	表1给出不同攻击与防御的 DSR 对比	把“边界约束”转化为可测指标

图3 越狱攻击在不同阶段的示意与分类

6 攻防与评测：从越狱基准到多模态红队与稳健拒答

6.1 基准化趋势：HarmBench、JailbreakBench 与“红队工业化”

文本安全研究近一年最明显的变化，是“可复现的基准化”。HarmBench 在其公开仓库中明确报告：比较了 18 种自动红队方法与 33 个目标 LLM/防御，并提供标准化流水线与工件。(GitHub) JailbreakBench 作为 NeurIPS 2024 数据与基准论文，则强调公开评测网站与工件库，图1展示其网站界面，图2则给出 benign behaviors 上的拒答率评估示例。这种基准化的直接收益是：研究可以围绕“同一套攻击、同一套防御、同一套裁判与日志”迭代，而不是各做各的、互相不可比；更深层的收益是：它迫使社区把“过度拒答”“裁判偏差”“查询成本”等工程现实纳入学术讨论。

6.2 多模态与新通道：音频越狱与更复杂的攻击面

越狱不再只发生在文本提示词里。2025 的 JALMBench 明确把音频引入越狱评测框架：它报告支持 12 个 ALM、8 种越狱攻击（含文本迁移与音频来源）与 5 种防御方法，并包含 245,355 个音频样本。(arXiv) 这意味着“内容审核”必须开始面对更广义的输入通道：语音转写误差会带来新的绕过方式，音频隐写与对抗扰动会让“先转写再审核”的传统流水线出现盲点。对于平台而言，这些变化会把安全工程从 NLP 小组推向更综合的多模态安全治理。

表6 代表性越狱/安全评测基准的真实信息对比（2024–2025）

基准/工作	年份	论文/仓库报告的规模信息	覆盖重点
HarmBench	2024	18 红队方法；33 目标 LLM/防御 (GitHub)	自动红队、稳健拒答
JailbreakBench	2024	图1为在线榜单；图2评测 benign behaviors 的拒答率	攻防可复现、工件库与裁判评估
AdvBench（被多篇工作引用）	2023/2024	500 harmful behaviors（ICLR 2024 论文中说明）(proceedings.iclr.cc)	指令型有害行为集合
Bag of Tricks（NeurIPS 2024）	2024	约 354 次实验、约 55,000 GPU hours；7 攻击×6 防御（论文摘要段）(proceedings.neurips.cc)	攻防设置对结果的影响、系统化基线
JALMBench	2025	12 ALMs；8 攻击；5 防御；245,355 音频样本 (arXiv)	多模态（音频）越狱评测
RefusalBench	2025	176 种扰动策略；评测 30+ 模型；多文档任务拒答准确率 <50%（摘要）(arXiv)	选择性拒答、可诊断生成式评测

7 典型系统蓝图：把“检测—过滤—对齐”组合成可落地的审核架构

如果把上述技术栈落到一个现实的生成式产品里，一个更可行的蓝图往往是“多模型、多策略、多层审计”的组合：入口处用轻量检测器与规则拦住显式恶意与常见越狱；中间层把系统提示、工具描述与检索文档做隔离与规范化，避免用户文本与系统指令混写；生成后用裁判模型做结构化判定，并把判定理由与证据写入审计日志；对高风险类别引入人工复核与申诉渠道；而在训练与持续迭代层面，利用 HarmBench/JailbreakBench/RefusalBench 这类基准做回归测试，防止“加固某类风险导致另一类过度拒答”。HarmBench 提供的流水线思路（生成用例—生成回答—评估回答）以及 JailbreakBench 对裁判一致性的量化，都可以直接迁移到企业内部的“安全回归套件”。(GitHub) Policy-as-Prompt 则提供了另一种组织方式：把政策文本当成可版本化的提示资产，让“策略变化”不必等待重新标注与再训练，但这要求提示演化必须可追踪、可回滚，并且必须与对抗测试共同迭代，否则策略越灵活，安全面越脆弱。(arXiv)

表7 攻击类型与防御层的对应关系（基于越狱综述与责任 LLM 综述整合）

攻击家族	常见手法与阶段	更有效的防御层组合（经验整合）
提示层越狱	角色扮演、忽略规则、多轮诱导（推理阶段）(arXiv)	输入端越狱检测 + 系统提示硬化 + 输出端裁判
提示注入	通过检索文档/工具描述注入“新指令”（上下文端）(arXiv)	上下文隔离/净化 + schema 校验 + 最终输出复核
白盒对抗/梯度攻击	针对模型参数或安全头（微调/对齐阶段）(arXiv)	训练期对抗加固 + 机制性防御（如边界约束思路）
数据投毒/后门	预训练数据污染（预训练阶段）(arXiv)	数据溯源与清洗 + 训练审计 + 发布前红队
多模态绕过	音频/跨模态迁移攻击 (arXiv)	多模态一致性检测 + 转写鲁棒性 + 端到端评测

8 结语：未来两年的关键矛盾与研究方向

综合近两年的综述与基准化趋势，可以看到文本安全正在从“模型能力竞赛”走向“系统可靠性竞赛”。第一，检测会继续朝“多裁判、多信号融合”发展，但裁判一致性与漂移治理将成为刚性工程需求，JailbreakBench 给出的裁判 agreement 差异已经足以说明：把安全判断交给模型并不自动可靠。第二，过滤将越来越强调“点位分层”与“副作用控制”，选择性拒答被提升为核心能力，RefusalBench 把这一能力拆成可诊断维度，揭示“安全并不等于拒绝更多”。(arXiv) 第三，对齐研究会更多触及机制层：像 ACL 2025 这类从激活空间讨论安全边界的工作，可能推动新的训练目标与防御结构出现，使得“安全边界”不再只是策略文本，而是模型内部可解释、可加固的结构。第四，审核范式会在“policy-as-prompt 的灵活性”与“可追责可审计的治理需求”之间拉扯：提示版本管理、策略回归测试、红队常态化与多模态通道的安全评测，会从研究议题变成行业基础设施。(arXiv)

参考文献（节选）

Konstantina Palla et al. Policy-as-Prompt: Rethinking Content Moderation in the Age of Large Language Models. arXiv, 2025. (arXiv)
Sibo Yi et al. Jailbreak Attacks and Defenses Against Large Language Models: A Survey. arXiv, 2024 (v2). (arXiv)
Miles Q. Li, Benjamin C. M. Fung. Security Concerns for Large Language Models: A Survey. arXiv, 2025. (arXiv)
（责任与风险综述）A Survey on Responsible LLMs: Inherent Risk, Malicious Use, and Mitigation Strategy. arXiv, 2025. (arXiv)
Peiyi Chao et al. JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models. NeurIPS 2024 (Datasets and Benchmarks Track) / OpenReview PDF.
Center for AI Safety. HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal（项目与说明仓库，含规模信息）. 2024. (GitHub)
Samuel Gehman et al. RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Findings of EMNLP 2020 (ACL Anthology). (ACL 汇编)
Marcos Zampieri et al. SemEval-2019 Task 6: Identifying and Categorizing Offensive Language in Social Media (OffensEval). ACL Anthology, 2019. (ACL 汇编)
Binny Mathew et al. HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection. AAAI 2021 (PDF). (AAAI)
I. Salles et al. COLING 2025 论文中对 HateXplain 规模（20,148）与 rationale 的引用说明（用于精确规模佐证）. (ACL 汇编)
T. Xiang et al. ToxCCIn: Toxic Content Classification with Interpretability. WASSA 2021（文中引用 Civil Comments 规模与毒性比例）. (ACL 汇编)
Z. Xu et al. Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs. NeurIPS 2024 (Datasets and Benchmarks Track). (proceedings.neurips.cc)
Y. Huang et al. ICLR 2024 论文中对 AdvBench（500 harmful behaviors）等基准规模的说明（用于规模佐证）. (proceedings.iclr.cc)
Z. Peng et al. JALMBench: Benchmarking Jailbreak Vulnerabilities in ... arXiv, 2025（含 245,355 音频样本与攻击/防御数量）。(arXiv)
Aashiq Muhamed et al. RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models. arXiv/OpenReview, 2025. (arXiv)
A. Yates et al. Depression and Self-Harm Risk Assessment in Online Forums. EMNLP 2017 (ACL Anthology)（含 ReachOut 数据划分信息）。(ACL 汇编)