《SoK: Watermarking for AI-Generated Content》

一篇面向安全与生成式AI交叉领域的“综述型基准论文”,重点回答:为什么要做水印、什么是“好水印”、当前方案到哪一步、接下来难点在哪。

导读

随着文本、图像、音频、视频生成能力快速逼近“以假乱真”,仅靠事后检测已越来越难稳定识别AI内容。本文基于IEEE S&P 2025 SoK论文,系统梳理生成式AI水印的理论定义、核心公式、主流技术路线、政策进展与未来方向,帮助你快速建立完整认知框架。

目录

  1. 论文速览
  2. 问题背景:为什么需要AI水印
  3. 技术框架:水印系统由什么组成
  4. 核心公式:如何定义“有效水印”
  5. 主流方案对比:文本/图像/音视频
  6. 政策与产业实践
  7. 开放问题与研究方向

1. 论文速览

  • 发表会议:2025年IEEE安全与隐私研讨会(IEEE S&P)。
  • 论文定位:生成式AI水印的系统性知识整理(SoK),覆盖定义、威胁模型、评估方法与代表性方案。

2. 问题背景:为什么需要AI水印

2.1 风险正在扩大

当AI内容接近真人创作质量后,虚假信息传播、学术不端、版权争议、训练数据污染等风险同步上升。

2.2 传统思路的局限

  • 记录溯源:依赖跨机构协同与大规模存储,成本高且可能带来隐私风险。
  • 事后检测:依赖统计特征或风格差异,但这些差异会随模型升级而消失。

2.3 水印的核心价值

水印属于“主动嵌入”机制:在生成阶段写入不可感知信号,后续可验证来源与归属,不再完全依赖内容表面特征。

3. 技术框架:水印系统由什么组成

3.1 基本闭环

  1. Watermark(生成):用生成密钥 gk 控制,在模型 M 与提示词 π 下输出带水印内容 x
  2. Detect(检测):判断内容是否含水印信号。
  3. Decode(解码):提取嵌入消息(用于多位水印)。
  4. Attribute(归属):判断是否来自某模型或某发布主体。

3.2 关键分类

  • 按信息容量:零位水印(仅判真伪) vs 多位水印(可嵌入消息)。
  • 按可见性:不可见水印(算法检测) vs 可见水印(Logo/标签)。

3.3 一套“好水印”应满足什么

论文强调六个核心属性:

  • 质量保持(低失真/无失真/不可检测);
  • 低假阳性率;
  • 低假阴性率与鲁棒性;
  • 不可伪造性;
  • 消息嵌入能力;
  • 计算效率。

4. 核心公式:如何定义“有效水印”

这些公式本质是“定义式”,用于严格界定性质,不是常见的推导计算题。

4.1 符号约定

符号 含义
M 生成式模型(如GPT、Stable Diffusion)
π 提示词
x 模型输出内容
R 可能响应集合
m 嵌入消息,m∈{0,1}^k
gk/dtk/dck/ak 生成/检测/解码/归属认证密钥
Pr[·] 概率
negl(λ) 可忽略函数(随安全参数 λ 增大快速趋近0)
D 多项式时间算法(检测器或攻击者)

4.2 质量维度

(1)失真度(定义3.1)

max ⁡ m , π 1 2 ∑ x ∈ R ∣ Pr [ M ( π ) → x ] − Pr g k [ Watermark g k M ( m , π ) → x ] ∣ \max _{m, \pi} \frac{1}{2} \sum_{x \in \mathcal{R}} \left| \text{Pr}[\mathcal{M}(\pi) \to x] - \text{Pr}_{gk}\left[ \text{Watermark}_{gk}^{\mathcal{M}}(m, \pi) \to x\right] \right| m,πmax21xR Pr[M(π)x]Prgk[WatermarkgkM(m,π)x]

含义:带水印分布与原始分布差异越小,质量影响越小。

(2)计算无失真(定义3.2)

∣ Pr x ← M ( π ) [ D M ( 1 λ , x ) → 1 ] − Pr g k x ← Watermark  g k M ( m , π ) [ D M ( 1 λ , x ) → 1 ] ∣ ≤ negl ( λ ) \left| \text{Pr}_{x \leftarrow \mathcal{M}(\pi)}\left[D^{\mathcal{M}}\left(1^{\lambda}, x\right) \to 1\right] - \text{Pr}_{\substack{gk \\ x \leftarrow \text{Watermark }_{gk}^{\mathcal{M}}(m, \pi)}}\left[D^{\mathcal{M}}\left(1^{\lambda}, x\right) \to 1\right] \right| \leq \text{negl}(\lambda) PrxM(π)[DM(1λ,x)1]PrgkxWatermark gkM(m,π)[DM(1λ,x)1] negl(λ)

含义:任意高效算法都难以区分“原始输出”和“带水印输出”。

(3)不可检测性(定义3.3)

∣ Pr [ D M , M ( 1 λ ) → 1 ] − Pr g k [ D M , Watermark  g k M ( 1 λ ) → 1 ] ∣ ≤ negl ( λ ) \left| \text{Pr}\left[D^{\mathcal{M}, \mathcal{M}}\left(1^{\lambda}\right) \to 1\right] - \text{Pr}_{gk}\left[D^{\mathcal{M}, \text{Watermark }_{g^{k}}^{\mathcal{M}}}\left(1^{\lambda}\right) \to 1\right] \right| \leq \text{negl}(\lambda) Pr[DM,M(1λ)1]Prgk[DM,Watermark gkM(1λ)1] negl(λ)

含义:即便允许自适应查询模型,仍难区分是否存在水印机制,是更强保证。

4.3 可靠性维度

(1)假阳性率(定义3.4)

Pr [ Detect d t k ( x ) → true ] ≤ ε \text{Pr}\left[\text{Detect}_{dtk}(x) \to \text{true} \right] \leq \varepsilon Pr[Detectdtk(x)true]ε

含义:把非水印内容误判为水印内容的概率上界为 ε

(2)鲁棒性(定义3.5)

Pr g k , d t k x ′ ← E ( x ) [ Detect  d t k ( x ′ ) → false and  P ( M , π , x ) = true  ] ≤ ε \underset{\substack{g k, d t k \\ x' \leftarrow \mathcal{E}(x)}}{\text{Pr}}\left[ \text{Detect }_{dtk}\left(x'\right) \to \text{false and } P(\mathcal{M}, \pi, x)= \text{true } \right] \leq \varepsilon gk,dtkxE(x)Pr[Detect dtk(x)false and P(M,π,x)=true ]ε

含义:经过编辑、改写、压缩等攻击后,检测失败概率仍需被控制在 ε 以内。

4.4 安全性维度

不可伪造性(定义3.6)

Pr g k , a k x ← A Watermark , M ( 1 λ , a k ) [ Attribute  a k ( x ) → true and  x ∉ Q ] ≤ negl ( λ ) \underset{\substack{g k, a k \\ x \leftarrow \mathcal{A}^{\text{Watermark}, \mathcal{M}}\left(1^{\lambda}, ak \right)}}{\text{Pr}}\left[ \text{Attribute }_{ak}(x) \to \text{true and } x \notin \mathcal{Q}\right] \leq \text{negl}(\lambda) gk,akxAWatermark,M(1λ,ak)Pr[Attribute ak(x)true and x/Q]negl(λ)

含义:攻击者即便可查询模型,也难以伪造“看起来来自目标模型”的新内容。

5. 主流方案对比:文本/图像/音视频

5.1 文本水印

方案类型 核心原理 代表工作 优势 局限
红绿水印(Green-Red) 密钥划分红绿词表,生成时偏向绿词,检测看绿词比例 Kirchenbauer et al. (2023) 实现简单、检测高效 有失真,抗攻击偏弱
冈贝尔水印(Gumbel) 通过冈贝尔采样与固定密钥序列影响令牌选择 Aaronson (2023) 无失真,单响应质量好 多响应多样性不足
不可检测水印 只对高熵令牌嵌入,避免PRF输入复用 Christ et al. (2024) 分布无差异、抗检测攻击 对令牌替换攻击敏感
伪随机纠错码水印 将文本令牌与伪随机纠错码结构绑定 Christ & Gunn (2024) 兼顾不可检测与抗替换 工程落地仍有限
语义句子水印 在句级语义空间(LSH/聚类)嵌入 SemStamp (2023) 抗令牌级修改 理论保证不足、效率偏低

5.2 图像水印

方案类型 核心原理 代表工作 优势 局限
稳定签名(Stable Signature) 微调扩散解码器,让输出含固定二进制签名 Fernandez et al. (2023) 嵌入稳定、检测简单 质量下降,抗重生成较弱
树环水印(Tree-Ring) 在潜空间傅里叶域写入固定环形结构 Wen et al. (2023) 抗基础编辑攻击 多样性下降,难嵌入消息
高斯阴影水印 将采样限制在特定象限并据此检测 Yang et al. (2024) 单图无失真 多图多样性不足
PRC水印 通过伪随机纠错码动态选择象限 Gunn et al. (2024) 不可检测,可携带消息 鲁棒性依赖码本设计

5.3 视频与音频

  • 视频:多沿用帧级水印与时序一致性嵌入,整体还处于早期阶段。
  • 音频:重点在TTS链路中嵌入可检测信号,需兼顾压缩和频谱扰动鲁棒性。

6. 政策与产业实践

6.1 监管侧

  • 美国:行政命令推动检测与标记标准建设;加州SB 942(2026年生效)要求模型方提供检测能力。
  • 欧盟:AI法案要求机器可读标记,明确水印/加密方案合法性。
  • 中国/韩国:强调对可能误导公众的AI内容进行标识,向多模态覆盖扩展。

6.2 产业侧

  • 标准组织:C2PA推动来源认证与元数据格式统一。
  • 企业实践:DeepMind SynthID走向多模态,强调在压缩、裁剪等修改下保持可检性。

7. 开放问题与研究方向

  1. 鲁棒性与不可伪造性的平衡:提升抗攻击能力时,如何避免引入可被利用的结构性弱点。
  2. 长文本与文档级水印:从令牌级扩展到段落/篇章级语义一致水印。
  3. 开源模型适配:在不改动推理流程或不牺牲性能前提下实现“内生水印”。
  4. 模型与数据集水印:从“内容溯源”延伸到“模型产权”和“训练数据权益”。
  5. 隐私与伦理治理:防止水印机制被滥用于用户追踪或隐私推断。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐