Watermarking for AI-Generated Content

这些公式本质是“定义式”，用于严格界定性质，不是常见的推导计算题。max⁡mπ12∑x∈R∣PrMπ→x−PrgkWatermarkgkMmπ→x∣mπmax21x∈R∑PrMπ→x−PrgkWatermarkgkMmπ→x含义：带水印分布与原始分布差异越小，质量影响越小。

qzhqbb

350人浏览 · 2026-03-05 13:16:17

qzhqbb · 2026-03-05 13:16:17 发布

《SoK: Watermarking for AI-Generated Content》

一篇面向安全与生成式AI交叉领域的“综述型基准论文”，重点回答：为什么要做水印、什么是“好水印”、当前方案到哪一步、接下来难点在哪。

导读

随着文本、图像、音频、视频生成能力快速逼近“以假乱真”，仅靠事后检测已越来越难稳定识别AI内容。本文基于IEEE S&P 2025 SoK论文，系统梳理生成式AI水印的理论定义、核心公式、主流技术路线、政策进展与未来方向，帮助你快速建立完整认知框架。

1. 论文速览

发表会议：2025年IEEE安全与隐私研讨会（IEEE S&P）。
论文定位：生成式AI水印的系统性知识整理（SoK），覆盖定义、威胁模型、评估方法与代表性方案。

2. 问题背景：为什么需要AI水印

2.1 风险正在扩大

当AI内容接近真人创作质量后，虚假信息传播、学术不端、版权争议、训练数据污染等风险同步上升。

2.2 传统思路的局限

记录溯源：依赖跨机构协同与大规模存储，成本高且可能带来隐私风险。
事后检测：依赖统计特征或风格差异，但这些差异会随模型升级而消失。

2.3 水印的核心价值

水印属于“主动嵌入”机制：在生成阶段写入不可感知信号，后续可验证来源与归属，不再完全依赖内容表面特征。

3. 技术框架：水印系统由什么组成

3.1 基本闭环

Watermark（生成）：用生成密钥 gk 控制，在模型 M 与提示词 π 下输出带水印内容 x。
Detect（检测）：判断内容是否含水印信号。
Decode（解码）：提取嵌入消息（用于多位水印）。
Attribute（归属）：判断是否来自某模型或某发布主体。

3.2 关键分类

按信息容量：零位水印（仅判真伪） vs 多位水印（可嵌入消息）。
按可见性：不可见水印（算法检测） vs 可见水印（Logo/标签）。

3.3 一套“好水印”应满足什么

论文强调六个核心属性：

质量保持（低失真/无失真/不可检测）；
低假阳性率；
低假阴性率与鲁棒性；
不可伪造性；
消息嵌入能力；
计算效率。

4. 核心公式：如何定义“有效水印”

这些公式本质是“定义式”，用于严格界定性质，不是常见的推导计算题。

4.1 符号约定

符号	含义
M	生成式模型（如GPT、Stable Diffusion）
π	提示词
x	模型输出内容
R	可能响应集合
m	嵌入消息，`m∈{0,1}^k`
gk/dtk/dck/ak	生成/检测/解码/归属认证密钥
Pr[·]	概率
negl(λ)	可忽略函数（随安全参数 `λ` 增大快速趋近0）
D	多项式时间算法（检测器或攻击者）

4.2 质量维度

（1）失真度（定义3.1）

$\max _{m, \pi} \frac{1}{2} \sum_{x \in \mathcal{R}} \left| \text{Pr}[\mathcal{M}(\pi) \to x] - \text{Pr}_{gk}\left[ \text{Watermark}_{gk}^{\mathcal{M}}(m, \pi) \to x\right] \right|$

含义：带水印分布与原始分布差异越小，质量影响越小。

（2）计算无失真（定义3.2）

$\left| \text{Pr}_{x \leftarrow \mathcal{M}(\pi)}\left[D^{\mathcal{M}}\left(1^{\lambda}, x\right) \to 1\right] - \text{Pr}_{\substack{gk \\ x \leftarrow \text{Watermark }_{gk}^{\mathcal{M}}(m, \pi)}}\left[D^{\mathcal{M}}\left(1^{\lambda}, x\right) \to 1\right] \right| \leq \text{negl}(\lambda)$

含义：任意高效算法都难以区分“原始输出”和“带水印输出”。

（3）不可检测性（定义3.3）

$\left| \text{Pr}\left[D^{\mathcal{M}, \mathcal{M}}\left(1^{\lambda}\right) \to 1\right] - \text{Pr}_{gk}\left[D^{\mathcal{M}, \text{Watermark }_{g^{k}}^{\mathcal{M}}}\left(1^{\lambda}\right) \to 1\right] \right| \leq \text{negl}(\lambda)$

含义：即便允许自适应查询模型，仍难区分是否存在水印机制，是更强保证。

4.3 可靠性维度

（1）假阳性率（定义3.4）

$\text{Pr}\left[\text{Detect}_{dtk}(x) \to \text{true} \right] \leq \varepsilon$

含义：把非水印内容误判为水印内容的概率上界为 ε。

（2）鲁棒性（定义3.5）

$\underset{\substack{g k, d t k \\ x' \leftarrow \mathcal{E}(x)}}{\text{Pr}}\left[ \text{Detect }_{dtk}\left(x'\right) \to \text{false and } P(\mathcal{M}, \pi, x)= \text{true } \right] \leq \varepsilon$

含义：经过编辑、改写、压缩等攻击后，检测失败概率仍需被控制在 ε 以内。

4.4 安全性维度

不可伪造性（定义3.6）

$\underset{\substack{g k, a k \\ x \leftarrow \mathcal{A}^{\text{Watermark}, \mathcal{M}}\left(1^{\lambda}, ak \right)}}{\text{Pr}}\left[ \text{Attribute }_{ak}(x) \to \text{true and } x \notin \mathcal{Q}\right] \leq \text{negl}(\lambda)$

含义：攻击者即便可查询模型，也难以伪造“看起来来自目标模型”的新内容。

5. 主流方案对比：文本/图像/音视频

5.1 文本水印

方案类型	核心原理	代表工作	优势	局限
红绿水印（Green-Red）	密钥划分红绿词表，生成时偏向绿词，检测看绿词比例	Kirchenbauer et al. (2023)	实现简单、检测高效	有失真，抗攻击偏弱
冈贝尔水印（Gumbel）	通过冈贝尔采样与固定密钥序列影响令牌选择	Aaronson (2023)	无失真，单响应质量好	多响应多样性不足
不可检测水印	只对高熵令牌嵌入，避免PRF输入复用	Christ et al. (2024)	分布无差异、抗检测攻击	对令牌替换攻击敏感
伪随机纠错码水印	将文本令牌与伪随机纠错码结构绑定	Christ & Gunn (2024)	兼顾不可检测与抗替换	工程落地仍有限
语义句子水印	在句级语义空间（LSH/聚类）嵌入	SemStamp (2023)	抗令牌级修改	理论保证不足、效率偏低

5.2 图像水印

方案类型	核心原理	代表工作	优势	局限
稳定签名（Stable Signature）	微调扩散解码器，让输出含固定二进制签名	Fernandez et al. (2023)	嵌入稳定、检测简单	质量下降，抗重生成较弱
树环水印（Tree-Ring）	在潜空间傅里叶域写入固定环形结构	Wen et al. (2023)	抗基础编辑攻击	多样性下降，难嵌入消息
高斯阴影水印	将采样限制在特定象限并据此检测	Yang et al. (2024)	单图无失真	多图多样性不足
PRC水印	通过伪随机纠错码动态选择象限	Gunn et al. (2024)	不可检测，可携带消息	鲁棒性依赖码本设计

5.3 视频与音频

视频：多沿用帧级水印与时序一致性嵌入，整体还处于早期阶段。
音频：重点在TTS链路中嵌入可检测信号，需兼顾压缩和频谱扰动鲁棒性。

6. 政策与产业实践

6.1 监管侧

美国：行政命令推动检测与标记标准建设；加州SB 942（2026年生效）要求模型方提供检测能力。
欧盟：AI法案要求机器可读标记，明确水印/加密方案合法性。
中国/韩国：强调对可能误导公众的AI内容进行标识，向多模态覆盖扩展。

6.2 产业侧

标准组织：C2PA推动来源认证与元数据格式统一。
企业实践：DeepMind SynthID走向多模态，强调在压缩、裁剪等修改下保持可检性。

7. 开放问题与研究方向

鲁棒性与不可伪造性的平衡：提升抗攻击能力时，如何避免引入可被利用的结构性弱点。
长文本与文档级水印：从令牌级扩展到段落/篇章级语义一致水印。
开源模型适配：在不改动推理流程或不牺牲性能前提下实现“内生水印”。
模型与数据集水印：从“内容溯源”延伸到“模型产权”和“训练数据权益”。
隐私与伦理治理：防止水印机制被滥用于用户追踪或隐私推断。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Linux 基本指令

本文介绍了Linux系统中常用的18个基础命令及其功能选项。主要包括文件操作类（echo、cat、more、less、head、tail）、系统信息类（date、cal、uname、top）、文件查找类（find、whereis）、压缩解压类（zip、unzip、tar、rzsz）、计算工具（bc）以及系统管理命令（shutdown）。重点说明了各命令的基本语法、常用参数和使用场景，如echo的输