Watermarking for AI-Generated Content
这些公式本质是“定义式”,用于严格界定性质,不是常见的推导计算题。maxmπ12∑x∈R∣PrMπ→x−PrgkWatermarkgkMmπ→x∣mπmax21x∈R∑PrMπ→x−PrgkWatermarkgkMmπ→x含义:带水印分布与原始分布差异越小,质量影响越小。
《SoK: Watermarking for AI-Generated Content》
一篇面向安全与生成式AI交叉领域的“综述型基准论文”,重点回答:为什么要做水印、什么是“好水印”、当前方案到哪一步、接下来难点在哪。
导读
随着文本、图像、音频、视频生成能力快速逼近“以假乱真”,仅靠事后检测已越来越难稳定识别AI内容。本文基于IEEE S&P 2025 SoK论文,系统梳理生成式AI水印的理论定义、核心公式、主流技术路线、政策进展与未来方向,帮助你快速建立完整认知框架。
目录
1. 论文速览
- 发表会议:2025年IEEE安全与隐私研讨会(IEEE S&P)。
- 论文定位:生成式AI水印的系统性知识整理(SoK),覆盖定义、威胁模型、评估方法与代表性方案。
2. 问题背景:为什么需要AI水印
2.1 风险正在扩大
当AI内容接近真人创作质量后,虚假信息传播、学术不端、版权争议、训练数据污染等风险同步上升。
2.2 传统思路的局限
- 记录溯源:依赖跨机构协同与大规模存储,成本高且可能带来隐私风险。
- 事后检测:依赖统计特征或风格差异,但这些差异会随模型升级而消失。
2.3 水印的核心价值
水印属于“主动嵌入”机制:在生成阶段写入不可感知信号,后续可验证来源与归属,不再完全依赖内容表面特征。
3. 技术框架:水印系统由什么组成
3.1 基本闭环
- Watermark(生成):用生成密钥
gk控制,在模型M与提示词π下输出带水印内容x。 - Detect(检测):判断内容是否含水印信号。
- Decode(解码):提取嵌入消息(用于多位水印)。
- Attribute(归属):判断是否来自某模型或某发布主体。
3.2 关键分类
- 按信息容量:零位水印(仅判真伪) vs 多位水印(可嵌入消息)。
- 按可见性:不可见水印(算法检测) vs 可见水印(Logo/标签)。
3.3 一套“好水印”应满足什么
论文强调六个核心属性:
- 质量保持(低失真/无失真/不可检测);
- 低假阳性率;
- 低假阴性率与鲁棒性;
- 不可伪造性;
- 消息嵌入能力;
- 计算效率。
4. 核心公式:如何定义“有效水印”
这些公式本质是“定义式”,用于严格界定性质,不是常见的推导计算题。
4.1 符号约定
| 符号 | 含义 |
|---|---|
| M | 生成式模型(如GPT、Stable Diffusion) |
| π | 提示词 |
| x | 模型输出内容 |
| R | 可能响应集合 |
| m | 嵌入消息,m∈{0,1}^k |
| gk/dtk/dck/ak | 生成/检测/解码/归属认证密钥 |
| Pr[·] | 概率 |
| negl(λ) | 可忽略函数(随安全参数 λ 增大快速趋近0) |
| D | 多项式时间算法(检测器或攻击者) |
4.2 质量维度
(1)失真度(定义3.1)
max m , π 1 2 ∑ x ∈ R ∣ Pr [ M ( π ) → x ] − Pr g k [ Watermark g k M ( m , π ) → x ] ∣ \max _{m, \pi} \frac{1}{2} \sum_{x \in \mathcal{R}} \left| \text{Pr}[\mathcal{M}(\pi) \to x] - \text{Pr}_{gk}\left[ \text{Watermark}_{gk}^{\mathcal{M}}(m, \pi) \to x\right] \right| m,πmax21x∈R∑ Pr[M(π)→x]−Prgk[WatermarkgkM(m,π)→x]
含义:带水印分布与原始分布差异越小,质量影响越小。
(2)计算无失真(定义3.2)
∣ Pr x ← M ( π ) [ D M ( 1 λ , x ) → 1 ] − Pr g k x ← Watermark g k M ( m , π ) [ D M ( 1 λ , x ) → 1 ] ∣ ≤ negl ( λ ) \left| \text{Pr}_{x \leftarrow \mathcal{M}(\pi)}\left[D^{\mathcal{M}}\left(1^{\lambda}, x\right) \to 1\right] - \text{Pr}_{\substack{gk \\ x \leftarrow \text{Watermark }_{gk}^{\mathcal{M}}(m, \pi)}}\left[D^{\mathcal{M}}\left(1^{\lambda}, x\right) \to 1\right] \right| \leq \text{negl}(\lambda) Prx←M(π)[DM(1λ,x)→1]−Prgkx←Watermark gkM(m,π)[DM(1λ,x)→1] ≤negl(λ)
含义:任意高效算法都难以区分“原始输出”和“带水印输出”。
(3)不可检测性(定义3.3)
∣ Pr [ D M , M ( 1 λ ) → 1 ] − Pr g k [ D M , Watermark g k M ( 1 λ ) → 1 ] ∣ ≤ negl ( λ ) \left| \text{Pr}\left[D^{\mathcal{M}, \mathcal{M}}\left(1^{\lambda}\right) \to 1\right] - \text{Pr}_{gk}\left[D^{\mathcal{M}, \text{Watermark }_{g^{k}}^{\mathcal{M}}}\left(1^{\lambda}\right) \to 1\right] \right| \leq \text{negl}(\lambda) Pr[DM,M(1λ)→1]−Prgk[DM,Watermark gkM(1λ)→1] ≤negl(λ)
含义:即便允许自适应查询模型,仍难区分是否存在水印机制,是更强保证。
4.3 可靠性维度
(1)假阳性率(定义3.4)
Pr [ Detect d t k ( x ) → true ] ≤ ε \text{Pr}\left[\text{Detect}_{dtk}(x) \to \text{true} \right] \leq \varepsilon Pr[Detectdtk(x)→true]≤ε
含义:把非水印内容误判为水印内容的概率上界为 ε。
(2)鲁棒性(定义3.5)
Pr g k , d t k x ′ ← E ( x ) [ Detect d t k ( x ′ ) → false and P ( M , π , x ) = true ] ≤ ε \underset{\substack{g k, d t k \\ x' \leftarrow \mathcal{E}(x)}}{\text{Pr}}\left[ \text{Detect }_{dtk}\left(x'\right) \to \text{false and } P(\mathcal{M}, \pi, x)= \text{true } \right] \leq \varepsilon gk,dtkx′←E(x)Pr[Detect dtk(x′)→false and P(M,π,x)=true ]≤ε
含义:经过编辑、改写、压缩等攻击后,检测失败概率仍需被控制在 ε 以内。
4.4 安全性维度
不可伪造性(定义3.6)
Pr g k , a k x ← A Watermark , M ( 1 λ , a k ) [ Attribute a k ( x ) → true and x ∉ Q ] ≤ negl ( λ ) \underset{\substack{g k, a k \\ x \leftarrow \mathcal{A}^{\text{Watermark}, \mathcal{M}}\left(1^{\lambda}, ak \right)}}{\text{Pr}}\left[ \text{Attribute }_{ak}(x) \to \text{true and } x \notin \mathcal{Q}\right] \leq \text{negl}(\lambda) gk,akx←AWatermark,M(1λ,ak)Pr[Attribute ak(x)→true and x∈/Q]≤negl(λ)
含义:攻击者即便可查询模型,也难以伪造“看起来来自目标模型”的新内容。
5. 主流方案对比:文本/图像/音视频
5.1 文本水印
| 方案类型 | 核心原理 | 代表工作 | 优势 | 局限 |
|---|---|---|---|---|
| 红绿水印(Green-Red) | 密钥划分红绿词表,生成时偏向绿词,检测看绿词比例 | Kirchenbauer et al. (2023) | 实现简单、检测高效 | 有失真,抗攻击偏弱 |
| 冈贝尔水印(Gumbel) | 通过冈贝尔采样与固定密钥序列影响令牌选择 | Aaronson (2023) | 无失真,单响应质量好 | 多响应多样性不足 |
| 不可检测水印 | 只对高熵令牌嵌入,避免PRF输入复用 | Christ et al. (2024) | 分布无差异、抗检测攻击 | 对令牌替换攻击敏感 |
| 伪随机纠错码水印 | 将文本令牌与伪随机纠错码结构绑定 | Christ & Gunn (2024) | 兼顾不可检测与抗替换 | 工程落地仍有限 |
| 语义句子水印 | 在句级语义空间(LSH/聚类)嵌入 | SemStamp (2023) | 抗令牌级修改 | 理论保证不足、效率偏低 |
5.2 图像水印
| 方案类型 | 核心原理 | 代表工作 | 优势 | 局限 |
|---|---|---|---|---|
| 稳定签名(Stable Signature) | 微调扩散解码器,让输出含固定二进制签名 | Fernandez et al. (2023) | 嵌入稳定、检测简单 | 质量下降,抗重生成较弱 |
| 树环水印(Tree-Ring) | 在潜空间傅里叶域写入固定环形结构 | Wen et al. (2023) | 抗基础编辑攻击 | 多样性下降,难嵌入消息 |
| 高斯阴影水印 | 将采样限制在特定象限并据此检测 | Yang et al. (2024) | 单图无失真 | 多图多样性不足 |
| PRC水印 | 通过伪随机纠错码动态选择象限 | Gunn et al. (2024) | 不可检测,可携带消息 | 鲁棒性依赖码本设计 |
5.3 视频与音频
- 视频:多沿用帧级水印与时序一致性嵌入,整体还处于早期阶段。
- 音频:重点在TTS链路中嵌入可检测信号,需兼顾压缩和频谱扰动鲁棒性。
6. 政策与产业实践
6.1 监管侧
- 美国:行政命令推动检测与标记标准建设;加州SB 942(2026年生效)要求模型方提供检测能力。
- 欧盟:AI法案要求机器可读标记,明确水印/加密方案合法性。
- 中国/韩国:强调对可能误导公众的AI内容进行标识,向多模态覆盖扩展。
6.2 产业侧
- 标准组织:C2PA推动来源认证与元数据格式统一。
- 企业实践:DeepMind SynthID走向多模态,强调在压缩、裁剪等修改下保持可检性。
7. 开放问题与研究方向
- 鲁棒性与不可伪造性的平衡:提升抗攻击能力时,如何避免引入可被利用的结构性弱点。
- 长文本与文档级水印:从令牌级扩展到段落/篇章级语义一致水印。
- 开源模型适配:在不改动推理流程或不牺牲性能前提下实现“内生水印”。
- 模型与数据集水印:从“内容溯源”延伸到“模型产权”和“训练数据权益”。
- 隐私与伦理治理:防止水印机制被滥用于用户追踪或隐私推断。
更多推荐


所有评论(0)