DCT域鲁棒图像水印系统论文精读：《A DCT-domain system for robust image watermarking》

关于图像变换，实际上所有迄今为止提出的技术都使用DCT，少数例外情况除外，如在DFT的相位中嵌入水印的研究，以及使用DCT、Walsh变换或小波变换的方法。研究还可以专注于彩色图像水印技术的开发（目前彩色图像水印是通过简单处理图像的亮度分量来实现的，从而忽略了图像不同颜色通道之间的相关性），水印序列长度的最优选择问题，以及水印在DCT频谱中的最优位置分布策略。在典型的应用中，即使丢弃掉占50%存储

小清河505

1034人浏览 · 2025-08-21 11:45:10

小清河505 · 2025-08-21 11:45:10 发布

第一章引言

网络化多媒体系统由于存储和传输的信息量不断增加而日益受到欢迎，当电子商务、互动电视、远程办公等先进多媒体服务广泛普及时，这种扩展将以更加陡峭的速度继续。网络化多媒体服务发展的一个限制因素是作者、出版商和多媒体数据提供商对于在网络环境中分发其文档表现出谨慎态度，因为数字数据在其精确的原始形式中易于复制的特性可能会鼓励版权侵犯。事实上，网络化多媒体系统的未来发展取决于开发有效方法来保护数据所有者免受未经授权的复制和网络上材料的重新分发。

虽然加密系统并不能完全解决问题，因为一旦解密被移除就无法再控制数据的传播，但一个可能的解决方案设想对多媒体作品进行数字水印处理，以便跟踪其传播。通过这种方式，允许的副本数量不受限制，但存在控制原始作品传播路径的可能性。

数字水印是一种携带有关版权所有者、作品创作者、授权消费者等信息的代码，以及处理与任何给定信息片段相关的财产权所需的任何信息。水印旨在永久嵌入到数字数据中，以便授权用户可以轻松读取它。同时，水印不应该显著修改作品的内容（它应该在统计上和感知上不可见或几乎不可见，以免降低数据质量并防止攻击者发现和删除它），并且对于未经授权的用户来说应该几乎不可能将其移除。通过水印处理，作品仍然可以访问，但被永久标记。为了真正有效，水印应该具备以下特点：

不显眼性：它应该在统计上和感知上不可见，以免降低数据质量并防止攻击者发现和删除它。

易于提取性：数据所有者或独立控制机构应该能够轻松提取它。

鲁棒性：对于试图伪造数据版权的攻击者来说，它必须难以（希望是不可能）被移除；如果只有水印的部分知识可用，试图移除或破坏它的尝试应该在水印丢失之前产生数据质量的显著降级。特别是，水印应该抵抗最常见的信号处理技术、多人共谋和伪造攻击，每个人都拥有文档的水印副本。

明确性：其检索应该明确地识别数据所有者。

可生成性：应该可能生成大量可相互区分的水印。

本文专注于图像水印算法；在这种特殊情况下，鲁棒性要求水印能够抵抗最常见的图像处理技术，如数字到模拟和模拟到数字转换、重采样、抖动、压缩、对比度或颜色增强，以及常见的几何失真，如旋转、平移、裁剪、缩放和行丢失。

到目前为止提出的图像水印技术可以分为两个主要组：那些直接在空间域中嵌入水印的技术和那些在变换域（例如频域）中操作的技术。技术也可以根据从可能失真的标记图像版本中提取水印的方式来区分。在某些情况下，通过将（失真的）标记图像与原始未标记图像进行比较来恢复水印，这样可以实现额外的鲁棒性程度，这实际上使得在不显著降级原始数据的情况下移除水印变得不可能。这种方法的例子在多个研究中有所报告，其中提出了几种方法，这些方法对各种图像处理技术和可能的攻击具有抵抗力，旨在移除水印或使其不可读。

不幸的是，要应用这些技术，必须保证能够访问原始图像，例如通过网络连接到数据库。这引发了双重问题，因为一方面水印系统的设置变得更加复杂，另一方面原始图像的所有者被迫与任何想要检查水印存在的人不安全地共享他们的作品。当然，能够在不比较标记图像和原始图像的情况下揭示标记存在的方法是更可取的。在后续内容中，不需要比较水印图像和非水印图像就能恢复水印的技术将被称为盲水印技术。

在本文中，提出了一种适合标记灰度图像的DCT域水印技术。在检测阶段无需访问未标记图像的需求被消除，从而相对于依赖水印图像和原始图像之间比较的方法实现了重大改进，尽管以轻微的鲁棒性损失为代价。然而，该算法仍然足够鲁棒，并且嵌入的标记在大多数实际应用中根据需要不可见，因此我们的提案可能代表朝着保护要通过开放网络环境传播的类图像数据的良好起点。

如同某些研究中一样，水印由伪随机序列组成，该序列叠加到全帧DCT变换的一些系数上。然而，与该方法不同的是，标记总是叠加到相同的系数集合上，从而避免了需要原始图像来确定伪随机序列隐藏位置的需要。通过这种方式，标记的恢复更加困难，因为原始DCT值是未知的。为了重新获得一些鲁棒性，引入了新的嵌入技术并使用了更长、更高能量的随机序列。这可能从标记可见性的角度引起一些问题，这些问题通过适当选择叠加标记的DCT值集合，以及通过在由高亮度方差特征的图像区域中感知上隐藏它来解决。

第二章在频域中嵌入水印

为了完全定义在变换域中操作的水印技术，必须指定三个主要步骤：图像变换、水印嵌入和水印恢复。

关于图像变换，实际上所有迄今为止提出的技术都使用DCT，少数例外情况除外，如在DFT的相位中嵌入水印的研究，以及使用DCT、Walsh变换或小波变换的方法。根据不同的方法，变换可以应用于整个图像，如某些研究中所示，或者应用于其子部分（块），如其他研究中所述。为了将水印代码嵌入到图像中，选择变换域中的一些系数，这些系数将根据水印规则进行修改。要修改的系数可以涉及整个图像，或者只标记一些块。在第二种情况下，获得了混合技术，其中水印在频域中添加，但也通过仅标记图像块的子集来利用空间信息。

通常，水印叠加的系数集合属于频谱的中等范围，这样可以在感知不可见性和对压缩及其他常见图像处理技术的鲁棒性之间取得平衡；有两种技术与此事实形成直接对比，即水印被放置在信号的感知上重要的频谱分量中：第一种是将水印嵌入到DFT的相位中，这种方法对篡改相当鲁棒，与幅度相比具有优越的噪声抗扰性，第二种是将水印插入到1000个最大的DCT系数中，不包括DC项。

为了恢复水印，一些算法将原始图像与可能损坏和水印的图像进行比较，以提供对攻击的额外鲁棒性，因为通过比较原始系数与水印系数来检索水印；此外，使用原始图像允许在水印检查之前进行一些预处理；可以估计旋转角度、平移和比例因子，可以用原始图像的相应部分替换图像的缺失部分，如某些研究中所示。

在某些研究中，水印由1000个随机生成的具有零均值和单位方差的正态分布实数序列组成： $X = {x_1, x_2, ..., x_{1000}}$ ；计算整个图像的DCT，并选择1000个最大的DCT系数，不包括DC项；通过根据以下关系修改选定的DCT系数 $T = {t_1, t_2, ..., t_{1000}}$ 来添加水印：

$t'_i = t_i + \alpha t_i x_i$

其中 $i = 1, 2, ..., 1000,\alpha = 0.1$ 。

给定原始图像I和可能失真的图像 $I^*$ ，通过基本上逆转嵌入过程来提取可能损坏的水印 $X^*$ 。在原始图像中选择具有最大幅度的n个DCT分量，并计算未标记系数与（损坏的）标记图像的系数之间的差异。通过这种方式，获得标记序列 $X^*$ 的估计。然后通过以下公式测量X和 $X^*$ 之间的相似性：

$\text{sim}(X, X^*) = \frac{X \cdot X^*}{\sqrt{X^* \cdot X^*}}$

其中 $X \cdot X^*$ 表示向量X和 $X^*$ 之间的标量积。该研究报告的实验结果非常有趣：该算法可以从通过几种常见几何失真和信号处理技术显著降级的图像中提取可靠的水印副本：缩放到图像大小的75%、质量因子为5%的JPEG压缩、抖动、削波，以及打印、复印、重新扫描和缩放的序列。通过在检测步骤中使用原始图像实现了对几何变形的鲁棒性。

有时，如在某些研究中，考虑人类视觉系统（HVS）的特性来使水印适应被签名的数据，以改善水印的不可见性并增强其鲁棒性（可以嵌入更大能量内容的水印）。

第三章基础知识与原理详解

3.1 离散余弦变换（DCT）的数学基础

离散余弦变换（Discrete Cosine Transform，DCT）是数字信号处理和图像处理中一种极其重要的正交变换技术。DCT变换最早由K. R. Rao、N. Ahmed和T. Natarajan三位学者在1974年提出，它是一种与傅里叶变换密切相关的变换方法，但与传统的离散傅里叶变换（DFT）不同的是，DCT只使用实数进行运算，完全避免了复数计算的复杂性和存储需求。从数学本质上来看，DCT可以被理解为对一个长度大约是原序列两倍的实偶函数进行的离散傅里叶变换，这种独特的特性使得DCT在处理实值信号时具有天然的优势和计算效率。

DCT变换的核心思想是将信号从时域（或空间域）转换到频域表示，通过一组不同频率的余弦基函数的线性组合来完整表示原始信号。这种变换具有优良的能量压缩特性，即对于大多数自然信号（如语音信号、图像信号），其能量主要集中在DCT变换后的低频部分，而高频部分的系数通常很小且可以在一定程度上被舍弃而不显著影响信号质量。这一重要特性使得DCT成为数据压缩领域的理想选择，在JPEG图像压缩标准、MPEG视频压缩标准以及MP3音频压缩等国际标准中，DCT都扮演着不可替代的核心角色。

从严格的数学定义来看，一维DCT变换可以表达如下：对于长度为N的离散信号序列 $f(x)$ ，其中 $x = 0, 1, 2, ..., N-1$ ，其DCT变换系数为：

$F(u) = \alpha(u) \sum_{x=0}^{N-1} f(x) \cos\left[\frac{\pi(2x+1)u}{2N}\right]$

其中， $u = 0, 1, 2, ..., N-1$ ，而 $\alpha(u)$ 是归一化系数，定义为：

相应的反DCT变换（IDCT）可以表示为：

$f(x) = \sum_{u=0}^{N-1} \alpha(u) F(u) \cos\left[\frac{\pi(2x+1)u}{2N}\right]$

这种正交变换的一个重要特性是其完美的可逆性，即通过DCT变换和反DCT变换可以完全无损地重构原始信号，这为其在各种应用中的可靠性提供了数学保证。

3.2 二维DCT变换与可分离性

在图像处理的实际应用中，我们主要关注二维DCT变换的性质和应用。由于DCT变换核函数具有重要的可分离性质，二维DCT可以通过两次连续的一维DCT变换来高效实现，这种可分离性不仅大大简化了算法的计算复杂度，也为硬件实现和并行处理提供了便利条件。对于一个 $N \times N$ 的图像块 $f(x,y)$ ，其二维DCT变换的完整数学定义为：

$F(u,v) = \alpha(u)\alpha(v) \sum_{x=0}^{N-1} \sum_{y=0}^{N-1} f(x,y) \cos\left[\frac{\pi(2x+1)u}{2N}\right] \cos\left[\frac{\pi(2y+1)v}{2N}\right]$

其中 $u, v = 0, 1, 2, ..., N-1$ ， $\alpha(u),\alpha(v)$ 是与一维情况相同的归一化系数。

可分离性的重要意义在于，我们可以将二维变换分解为两个步骤：首先对图像的每一行进行一维DCT变换，然后对得到的中间结果的每一列再进行一维DCT变换，最终获得完整的二维DCT系数矩阵。这种分步处理方式不仅将计算复杂度从 $O(N^4)$ 降低到 $O(N^3)$ ，还使得算法更容易在各种硬件平台上实现，包括专用的数字信号处理器（DSP）和现场可编程门阵列（FPGA）。

二维DCT变换后得到的系数矩阵具有重要的物理意义和频率解释：矩阵的左上角系数对应低频分量，包含了图像的主要能量和基本的视觉信息；右下角的系数对应高频分量，主要包含图像的边缘信息、纹理细节和噪声成分。这种有序的频率分布特性是DCT在图像压缩和图像水印中发挥重要作用的根本原因。

3.3 DCT变换的频率特性与能量分布

DCT变换在频域中的特性是理解其在图像水印应用中重要性的关键所在。在二维DCT变换中，变换后的系数按照空间频率的高低进行有序排列，通常采用"之字形"（zig-zag）扫描顺序来重新排列这些系数。这种特殊的排列方式确保了低频系数排在序列的前面，高频系数排在序列的后面，这种排列顺序在JPEG压缩标准中得到了广泛应用，也为图像水印的频域嵌入提供了理论基础。

DCT系数的频率特性可以从多个层面来深入理解：首先，DC系数（即 $F(0,0)$ ）代表整个图像块的平均亮度值，它包含了该块最重要的视觉信息，任何对DC系数的修改都会直接影响图像块的整体亮度；其次，低频AC系数对应图像中的缓慢变化区域，如平滑的背景区域和亮度渐变区域，这些系数通常具有较大的幅值；最后，高频AC系数对应图像中的快速变化区域，如边缘轮廓、纹理细节和噪声成分，这些系数的幅值通常较小但对图像的清晰度有重要影响。

DCT变换最重要的特性之一是其卓越的能量压缩能力，这一特性是DCT在图像压缩和水印领域广泛应用的理论基础。能量压缩是指变换后的系数中，绝大部分信号能量集中在少数几个低频系数中，而其余高频系数的数值相对较小。对于自然图像而言，由于其固有的空间相关性，相邻像素之间的数值差异通常较小，因此经过DCT变换后，能量主要集中在低频部分。在典型的应用中，即使丢弃掉占50%存储空间的高频系数，视觉信息的损失可能还不到5%，这种不对称的能量分布为有损压缩提供了坚实的理论基础。

3.4 数字水印技术的理论框架

数字水印技术是一种将标识信息（水印）以不可感知的方式直接嵌入到数字媒体内容中的先进技术，这种嵌入过程必须满足不可感知性要求，同时还要能够抵抗各种可能的恶意攻击和无意处理。数字水印系统在概念上包含两个相互关联的核心过程：水印嵌入过程和水印检测过程。在嵌入过程中，水印信息通过精心设计的算法被巧妙地嵌入到载体信号的特定位置；在检测过程中，通过相应的检测算法从可能经过各种攻击和处理的含水印信号中准确提取或可靠检测水印信息。

水印系统的设计面临着多个相互冲突的性能要求，设计者必须在这些要求之间找到最优的平衡点：不可感知性要求水印的嵌入不能显著影响载体信号的主观和客观质量；鲁棒性要求水印能够抵抗各种可能的攻击，包括有意的恶意攻击和无意的信号处理操作；水印容量要求系统能够嵌入足够的信息量以满足实际应用需求；安全性要求未授权用户难以检测、删除或伪造水印信息。这些要求往往是相互制约和矛盾的，提高某一方面的性能通常需要以牺牲其他方面的性能为代价，这正是数字水印研究的核心挑战所在。

3.5 频域水印的优势与人类视觉系统特性

在频域水印技术中，水印信息通常被嵌入到变换系数中，而不是直接嵌入到空域的像素值中。这种基于变换域的方法具有多方面的显著优势：首先，频域表示更符合人类视觉系统的感知特性，便于利用各种视觉掩蔽效应来有效提高水印的不可感知性；其次，频域水印通常具有更强的鲁棒性，能够更好地抵抗各种常见的信号处理操作，如滤波、压缩和几何变换；第三，频域嵌入可以更精确地控制水印能量在不同频率分量上的分布，从而在鲁棒性和不可感知性之间实现更好的平衡优化。

人类视觉系统（Human Visual System, HVS）的复杂特性在数字水印设计中起着至关重要的指导作用。视觉感知理论的研究成果揭示了人眼对不同空间频率、亮度层次和对比度变化的敏感性存在显著差异，这些生理和心理特性可以被巧妙地利用来设计高质量的不可感知水印。视觉掩蔽效应是其中最重要的理论基础，它科学地描述了在某些特定条件下，人眼无法察觉到原本应该可以被检测到的信号变化的有趣现象。

频率掩蔽是视觉掩蔽效应的一个重要方面，相关研究表明人眼对不同空间频率变化的敏感性存在显著差异。一般而言，人类视觉系统对中等频率范围内的变化最为敏感，而对极低频和极高频的变化相对不敏感。这一重要特性为DCT域水印设计提供了科学的指导原则：在极低频区域嵌入水印虽然具有很强的鲁棒性，但容易被人眼察觉从而影响图像质量；在极高频区域嵌入的水印虽然不易被感知，但在图像压缩等常见处理中容易丢失；因此，中频区域往往是实现不可感知性和鲁棒性最佳平衡的理想嵌入位置。

第四章所提出的水印系统

与前面提到的研究类似，水印 $X = {x_1, x_2, ..., x_M}$ 由长度为M的伪随机序列组成，该序列使用乘法同余算法生成；每个值 $x_i$ 是具有零均值和单位方差的正态分布的随机实数。选择正态分布水印的动机是为了增强对试图通过平均多个不同水印副本来产生无水印文档的攻击的鲁棒性。对于水印检测而言，构成不同水印的实数 $x_i$ 在统计上必须是独立的；这种特性是由序列的伪随机性质保证的。此外，这样的序列可以通过向生成算法提供正确的种子（密钥）来轻松重现。

4.1 水印嵌入过程

在此步骤中，计算 $N \times N$ 灰度图像I的 $N \times N$ DCT变换，并将DCT系数重新排列为锯齿形扫描，如同JPEG压缩算法中使用的方式。与Cox系统相比，这里的关键变化是解码器现在无法确定具有最大幅度的系数的具体位置，因为不再有未标记的原始图像可用于比较。为了绕过这个根本问题，水印总是嵌入到相同的系数集合中。具体而言，根据DCT频谱的锯齿形排序方式，选取从第(L+1)个到第(M+L)个系数，其中前L个系数被跳过以实现水印的感知不可见性，同时不会失去对各种信号处理技术的鲁棒性。

关于水印的具体嵌入规则，采用了一种不同的策略来摆脱需要比较标记图像和未标记图像数据的限制。特别地，包含水印的DCT系数向量 $T' = {t'{L+1}, t'{L+2}, ..., t'_{L+M}}$ 根据以下重要规则进行计算：

$t'{L+i} = t{L+i} + \alpha|t_{L+i}|x_i$

其中 $i = 1, 2, ..., M$ 。使用DCT系数的绝对值 $|t_{L+i}|$ 而不是其原始值 $t_{L+i}$ 来加权引入的水印的深层原因将在后续的理论分析部分变得清楚。最后，修改后的系数向量T'被重新插入到锯齿形扫描序列中，并执行逆DCT变换，从而获得含水印的图像I'。

4.2 水印检测过程

给定一个可能经过攻击或处理的图像 $I^*$ ，首先对其应用 $N \times N$ DCT变换；将 $I^*$ 的DCT系数重新排列为锯齿形扫描顺序，并选择从第(L+1)个到第(L+M)个系数来生成检测向量 $T^* = {t^*_{L+1}, t^*_{L+2}, ..., t^*_{L+M}}$ 。由于无法通过从 $T^*$ 中减去未标记的DCT系数来直接获得水印的估计，因此采用了一种创新的方法：将含水印的可能损坏系数 $T^*$ 与待检测水印本身之间的相关性作为水印存在性的度量指标。

更具体地说，用水印X标记的DCT系数与可能不同的测试水印Y之间的相关性z定义为：

根据具体的应用场景，相关性z可以用于两种不同的目的：一是确定某个给定的特定水印是否存在于图像中，二是从一组已知的候选水印中识别出真正嵌入的那一个。在第一种情况下，计算得到的z值简单地与预先定义的检测阈值 $T_z$ 进行比较；在第二种情况下，需要为每个候选水印分别计算相关性z，然后假设具有最大相关性值的水印就是图像中真正存在的水印。

4.3 深入的理论分析

让我们用符号I、 $I'$ 和 $I^*$ 分别表示原始图像、含水印图像和经过水印处理且可能受到攻击的图像。在水印嵌入阶段，编码器选择M个DCT系数组成的向量T作为水印嵌入位置，根据公式(3)中的嵌入规则产生含水印的系数向量 $T'$ 。在水印检测阶段，从可能受损的图像中提取向量 $T^*$ ，并根据公式(4)计算 $T^*$ 与通用测试水印Y之间的相关性。

如果我们假设含水印图像没有受到任何攻击或处理，即 $I^* = I'$ ，那么我们有（为简化表示暂时忽略索引偏移L）：

$t^*_i = t'_i = t_i + \alpha|t_i|x_i$

将此关系代入相关性计算公式，可以得到：

$z = \frac{1}{M} \sum_{i=1}^{M} (t_i y_i + \alpha|t_i|x_i y_i)$

当测试水印Y与真正嵌入图像中的水印X完全匹配时，即Y = X，相关性z变为：

$z = \frac{1}{M} \sum_{i=1}^{M} (t_i x_i + \alpha|t_i|x_i^2)$

为了深入理解这个检测统计量的性质，我们在以下重要假设条件下研究了z的统计特性： $t_i$ 和 $x_i$ 都是零均值、相互独立且服从相同分布的随机变量。基于这些合理的统计假设，可以计算出相关性z的理论均值和方差：

其中 $\mu_{|t|} = E[|t|]$ 表示DCT系数绝对值的期望， $\sigma_t^2 = \text{var}[t]$ 和 $\sigma_{|t|}^2 = \text{var}[|t|]$ 分别表示DCT系数及其绝对值的方差。

通过注意到 $\sigma_{|t|}^2 \ll \sigma_t^2$ 这一重要不等式关系，并假设水印强度参数满足 $\alpha^2 \ll 1$ ，我们可以得到一个重要的近似：

$\sigma_z^2 \approx \frac{\sigma_t^2}{M}$

这个近似结果在X = Y的情况下和图像中不存在水印X的情况下（即 $X \neq Y$ 或没有水印存在）都是成立的。

如图1所描述的，通过上述理论分析我们获得了两个近似的高斯随机变量： $z_1$ （当检测器搜索的水印与嵌入的水印不匹配或图像中没有水印存在时）和 $z_2$ （当搜索的水印与嵌入的水印匹配时）。这两个随机变量近似具有相同的方差 $\sigma_z^2$ ，但具有不同的均值： $\mu_1 = 0$ 和 $\mu_2 = \alpha\mu_{|t|}$ 。

[图1：显示水印检测中两个概率密度函数的对比图]

为了获得较低的检测错误概率，关键因子 $\kappa = \mu_z/\sigma_z$ （即两个高斯分布之间的标准化距离）必须足够大。从公式(8)可以看出， $\mu_z$ 不依赖于随机序列长度M，但随着水印强度参数α的增加而增大；此外，由于在锯齿形扫描中DCT系数的绝对值是递减的，当跳过的系数数量L增加时， $\sigma_t^2,\mu_{|t|}$ 都会减少，但前者减少的速度比后者更快。这些重要的理论考虑建议选择比现有研究中更长的随机序列长度，以便使关键因子κ达到足够高的水平，从而保证可靠的检测性能。

表1：为不同的L和M值评估的因子 $\mu_{|t|}$ 、 $\sigma_t$ 和 $\kappa$ ，基于标准图像'Lenna'和'Boat'的计算结果（ $\alpha = 0.2$ ）

从表1的结果可以清楚地看出，随着序列长度和跳过系数数量的增加，判别因子κ显著提高，这为选择合适的系统参数提供了重要的定量指导。

此外，现在可以清楚地理解为什么在水印嵌入公式(3)中要用DCT系数的绝对值而不是其原始值来加权水印：如果使用原始的DCT系数值 $t_i$ 进行加权，由于 $E[t_i] = 0$ ，会导致 $\mu_z = 0$ ，从而无法区分含水印图像和无水印图像；相反，通过使用绝对值 $|t_i|$ ，由于 $\mu_{|t|}$ 总是大于零，因此可以获得非零的 $\mu_z$ ，这为可靠的水印检测提供了理论基础。

选择适当的检测阈值 $T_z$ 后，还可以给出无攻击情况下的理论错误概率估计。具体地，通过假设 $T_z = \mu_2/2$ （即将阈值设置在两个分布均值的中点）并设 $\sigma_{z1} = \sigma_{z2}$ ，我们可以得到：

$P_e = \frac{1}{\sqrt{2\pi\sigma_z^2}} \int_{T_z}^{\infty} e^{-x^2/2\sigma_z^2} dx = \frac{1}{2}\text{erfc}\left(\frac{T_z}{\sqrt{2\sigma_z^2}}\right)$

其中 $\text{erfc}(x)$ 是互补误差函数。

为了在实际应用中推导出具体的错误概率，必须估计 $\sigma_t^2,\mu_{|t|}$ 的数值。这是一个非常具有挑战性的任务，因为理论上需要计算所有可能图像上$t_i$的期望值。基于由170个来自各种应用领域的灰度图像组成的综合测试数据库，我们通过实验发现，当M和L的取值范围从10,000到20,000时，通过设置 $\mu_{|t|} = 0.7,\sigma_t^2 = 1$ 可以获得良好的数值近似。将这些经验值代入公式(11)，并假设 $\alpha = 0.1,L = M = 16,000$ ，可以得到大约等于 $10^{-6}$ 的理论错误概率，这表明该算法具有很高的检测可靠性。

对于上述理论分析能够成功应用于实际情况，需要考虑两个重要方面。基于统计分析，我们假设了 $\mu_{|t|} = 0.7$ ，这是一个相当合理的假设；然而，如果要标记的图像的DCT系数平均绝对值显著低于0.7，或者更糟糕的是，如果对图像进行了某些处理使得 $|t^*|$ 的平均值大幅降低，那么在将z与 $T_z = (\alpha/2)\mu_{|t|}$ 比较时可能会出现错误。在实际应用中，解码器最好使用直接在含水印图像上评估的阈值 $T'_z$ ：

第二个考虑涉及当图像受到有意或无意攻击破坏时 $T'_z$ 的选择。在这种情况下，前面进行的理论分析不再严格有效，因为攻击可能会改变z的均值和方差。虽然由于可能攻击的巨大多样性，这种情况无法进行解析讨论，但依据实验结果可以论证，当考虑攻击时， $\sigma_{z1}$ 保持近似不变，而 $\sigma_{z2}$ 显著增加。至于z1和z2的平均值，我们假设即使在存在攻击的情况下 $\mu_{z1}$ 仍为零，而 $\mu_{z2}$ 可以通过观察含水印的可能损坏图像来可靠估计。

因此，参考图1，我们可以说由于攻击的存在，仍然存在两个高斯分布，但以 $\mu_{z2}$ 为中心的那个现在具有显著更大的方差。这表明 $T'_z$ 应该设置得更接近零，而不是在零和 $\mu{|t|}$ 之间的中点。在本文的其余部分，我们将假设：

这种 $T'_z$ 的选择也得到了实验结果的支持，其中一部分将在第5节中介绍。

4.4 视觉掩蔽的应用

实际上，公式(3)中的调制规律是专门设计来考虑人类视觉系统（HVS）的频率掩蔽特性的。事实上，正弦光栅的感知阈值取决于与其叠加的同频信号的幅度。确实，当DCT系数由于水印嵌入而被修改时，变化会影响整个图像，即使在实际上不存在该特定频率信号的区域也是如此，因此在这些区域中，水印无法得到有效的掩蔽保护。

为了进一步增强水印的不可见性，本研究还利用了HVS的空间掩蔽特性来使水印自适应地匹配被签名的图像特征：将原始图像I和含水印图像$I'$根据局部加权因子 $\beta_{i,j}$ 逐像素进行加权组合，从而得到最终的自适应水印图像 $I^A$ ：

加权因子 $\beta_{i,j}$ 充分考虑了HVS的复杂特性：在噪声敏感性较低的区域（例如高纹理区域），水印数据的嵌入更加容易且不易被察觉，此时 $\beta_{i,j} \approx 1$ ，使得 $y^A_{i,j} \approx y'{i,j}$ ，即水印强度不会被削弱；而在对变化更加敏感的区域（例如平滑均匀区域），水印的插入更容易产生视觉干扰，此时 $\beta{i,j} \approx 0$ ，使得 $y^A_{i,j} \approx y_{i,j}$ ，即水印只在很小程度上嵌入。选择适当的视觉特性作为因子 $\beta_{i,j}$ 变化的基础是至关重要的。

这里描述一种选择 $\beta_{i,j}$ 的简单而有效的方法：对于每个像素 $y_{i,j}$ ，考虑以该像素为中心的固定大小 $R \times R$ 的方形邻域（在我们的实现中R = 9），计算该邻域内像素值的样本方差；然后将此方差相对于整个图像中所有邻域方差的最大值进行归一化处理。因此，因子 $\beta_{i,j}$ 就是为像素 $y_{i,j}$ 计算得到的归一化方差值。

通过公式(14)的巧妙应用，我们追求实现两个重要目标：第一是在不损害水印可见性的前提下增加水印嵌入强度α，从而提高水印的鲁棒性；第二是使攻击者更难以擦除水印，因为通常情况下，非均匀的图像区域在不过度降低图像质量的前提下无法被显著改变。通过以这种智能方式利用视觉掩蔽效应，可以嵌入具有更高能量的水印；公式(3)中的强度参数α可以选择为使其在整个图像上的加权平均值为 $\bar{\alpha} = 0.2$ ，而不会产生可见的图像质量退化。相应地，检测阈值 $T'_z$ （公式(13)）必须使用这个 $\bar{\alpha}$ 值来重新估计。

第五章实验结果

为了全面测试新提出的水印算法的性能，我们随机生成了1000个不同的水印序列。随后对若干灰度标准测试图像（包括'Boat'、'Lenna'、'Bridge'等经典图像）进行水印嵌入，并对这些含水印图像施加多种常见的信号处理技术和几何失真操作，以评估检测器能否成功揭示图像所有者水印的存在，从而全面测量算法对各种类型攻击的鲁棒性能。

在本文中，我们详细描述了在图2（左）所示的标准图像'Boat'上获得的代表性实验结果，但需要指出的是，在其他标准测试图像上也获得了类似的优秀结果。原始图像使用参数 $\bar{\alpha} = 0.2,M = L = 16,000$ 和邻域块大小R = 9进行水印嵌入，得到图2（右）所示的含水印图像副本。从视觉效果来看，含水印图像与原始图像几乎无法区分，证明了算法优秀的不可感知性。

[图2：原始'Boat'图像（左）和使用参数 $\bar{\alpha} = 0.2,M = L = 16,000$ 、块大小R = 9的含水印'Boat'图像（右）]

图3显示了水印检测器对所有1000个候选水印的响应幅度的对数值分布。该图表可以从两种不同角度进行解释：第一种解释中，特定水印的检测响应与预设阈值$T'_z$进行比较，以判决该水印是否确实存在于图像中；第二种解释中，如果不知道必须检查存在性的具体水印身份，则计算所有候选水印的检测响应并选择具有最大响应值的那个。在这两种应用场景下，解码器在做出正确判决方面都毫无疑问地表现出色。事实上，对正确嵌入水印的检测响应远远强于对其他所有候选水印的响应，这清楚地表明了实现极低假阳性率和假阴性率的可能性。

[图3：图2（右）所示含水印图像对1000个随机生成水印的检测器响应对数幅度分布图。只有第100号水印与真正嵌入的水印匹配]

5.1 JPEG压缩攻击测试

JPEG压缩算法是水印系统必须抵抗的最重要攻击类型之一，因为JPEG是目前应用最广泛的图像压缩标准。我们对含水印图像应用了0%平滑度和递减质量因子的JPEG编码处理。显然，当JPEG压缩图像质量降低时，最大检测器响应也会相应降低，但是水印检测响应一直远高于检测阈值，直到压缩质量大于8%时才接近阈值，此时对应的压缩比高达34:1（见图4（右）），尽管此时图像已经出现明显的视觉失真（见图4（左））。

[图4：质量因子为4%、平滑度为0%的JPEG压缩含水印'Boat'图像（左）和相应的检测器响应对数幅度分布图（右）]

此外，实验结果表明，即使将质量参数设置为极端的1%（对应69:1的超高压缩比），对正确水印的检测响应仍然保持为所有候选水印中的最大值，这充分证明了算法在极端压缩条件下的卓越鲁棒性。

5.2 低通滤波和中值滤波攻击

我们使用不断增大窗口尺寸的低通滤波器和中值滤波器对含水印图像进行滤波处理；大量测试结果表明，水印对窗口大小为3×3和5×5的滤波器具有良好的鲁棒性：即使在图像出现明显退化的情况下（如图5和图6所示），检测响应仍然远高于设定的检测阈值，保证了水印的可靠检测。

[图5：经过5×5低通滤波处理的含水印'Boat'图像（左）和相应的检测器响应对数幅度分布图（右）]

[图6：经过5×5中值滤波处理的含水印'Boat'图像（左）和相应的检测器响应对数幅度分布图（右）]

这些滤波测试的成功表明，该水印算法对常见的图像增强和噪声去除操作具有良好的抵抗能力，这在实际应用中是非常重要的特性。

5.3 直方图均衡化和拉伸操作

如图7和图8所示，对图像直方图的各种操作并不会削弱水印的检测性能，相反，嵌入水印的检测器响应相对于未经处理的含水印图像上获得的响应还有所增强。这些令人鼓舞的结果表明，为了进一步增强算法的检测性能，可以考虑在水印检测之前对可能受损的图像进行直方图均衡化或直方图拉伸预处理。

[图7：经过直方图均衡化处理的含水印'Boat'图像（左）和相应的检测器响应对数幅度分布图（右）]

[图8：经过直方图拉伸处理的含水印'Boat'图像（左）和相应的检测器响应对数幅度分布图（右）]

5.4 高斯噪声攻击测试

作为进一步的鲁棒性测试，我们通过添加高斯噪声来人为污染Boat图像，从而获得图9（左）所示的严重退化图像。我们使用了方差 $\sigma^2 = 4000$ 的零均值高斯噪声进行测试。尽管图像退化程度如此严重，以至于在实际应用中这种质量水平是完全无法接受的，但水印仍然能够被可靠地检测和恢复，如图9（右）清楚显示的检测结果。

[图9：添加方差 $\sigma^2 = 4000$ 的高斯噪声后的含水印'Boat'图像（左）和相应的检测器响应对数幅度分布图（右）]

实际上，更加全面的测试表明，该解码器能够在噪声方差$\sigma^2$高达25,000的极端条件下仍然成功恢复水印，这充分证明了算法对加性噪声攻击的卓越抵抗能力。

5.5 抖动处理攻击

图10（左）显示了经过抖动处理的Boat图像。再次证明，解码器的输出表现令人满意，因为检测器响应远高于设定的检测阈值（参见图10（右）），从而能够明确无误地识别图像中存在的特定水印。特别值得注意的是，水印对抖动的高度抗性表明该系统对基于抖动技术的所有数字到模拟转换过程也具有良好的鲁棒性，这在实际应用中具有重要意义。

[图10：经过抖动处理的含水印'Boat'图像（左）和相应的检测器响应对数幅度分布图（右）]

5.6 几何失真：图像缩放

实际上，几乎所有的实际应用都要求水印对几何操作（如裁剪和尺寸调整）具有免疫能力。关于图像尺寸调整，本文描述的新算法表现出了出色的性能。事实上，检测器的响应基本不依赖于图像尺寸的变化，或者只是轻微依赖。

为了解释算法对尺寸调整具有内在鲁棒性的深层原因，让我们更详细地分析这个几何变换过程。图11以一维信号为例说明了图像尺寸调整对DCT系数的影响效果。

[图11：图像尺寸调整对DCT系数影响的示例图。显示了未损坏含水印图像的DCT频谱（a），放大图像的频谱（b）和缩小图像的频谱（c）]

在图11(a)中，绘制了含水印图像的频谱，其中嵌入水印的系数被特别突出显示。当通过理想插值过程放大信号时，得到图11(b)中显示的频谱。可以观察到，频谱副本的重复周期被相应放大，但是由于采样点数量按相同因子增加，嵌入水印的系数实际上并不发生改变。相反，当信号被压缩时，频谱副本变得更加靠近，从而可能导致一定程度的频谱混叠现象。然而，只要压缩因子不是过分巨大，嵌入水印的频谱部分基本保持不变。

类似的分析结论同样适用于二维图像的情况，即使在水平和垂直方向上应用不同的缩放因子时也是如此，从而确保了水印对各向同性和各向异性尺寸调整的良好鲁棒性。在许多实际应用中，图像尺寸调整并不是通过理想插值过程实现的，然而，由于算法对这种特定几何失真的内在鲁棒性特性，水印对所有类型的实际尺寸调整算法都表现出极强的抗性（参见图12的实验验证）。

[图12：从512×512尺寸调整为256×256的含水印'Boat'图像（左）和相应的检测器响应对数幅度分布图（右）]

5.7 几何失真：图像裁剪

尽管抗裁剪能力在几乎所有实际应用中都扮演着至关重要的角色，但所提出的技术并不支持从原始图像子部分进行盲水印恢复。简而言之，这主要是由于裁剪操作导致的频率采样步长变化，以及DCT变换对空间平移的高度敏感性造成的。

尽管存在这种理论限制，我们仍然进行了相关实验来证明子图像中包含的信息在某些条件下仍然足以检测水印的存在。特别地，假设子图像能够被精确放置在其在原始完整图片中所占据的完全相同位置，我们发现如果裁剪后保留的部分至少占原始图像的40%，所提出的系统仍然可以成功检测水印的存在（参见图13的实验结果）。

[图13：经过裁剪处理的含水印'Boat'图像（左）和相应的检测器响应对数幅度分布图（右）]

5.8 多重水印和伪造攻击

某些高级应用场景要求在单个图像中嵌入多个不同的水印。例如，用户可能希望嵌入两个水印：一个用于标识数据创建者的身份，另一个用于指示授权消费者的信息。当然，嵌入在图像中的所有水印都应该能够被检测器成功识别和提取。

此外，恶意攻击者可能会故意插入多个干扰性水印，试图使原始的合法水印变得无法读取或检测。为了在这个重要方面测试我们算法的性能，我们首先对原始图像进行水印嵌入，然后对含水印图像用不同的水印进行第二次签名处理，如此反复操作直到获得一个包含五个完全不同水印的复合图像（参见图14（左））。

[图14：包含五个不同水印的'Boat'图像（左）和相应的检测器响应对数幅度分布图（右）]

如图14（右）的检测结果清楚显示，检测器能够成功识别和检索嵌入在图像中的所有五个水印，每个水印都在相应位置产生了明显的检测峰值，这充分证明了算法在多重水印环境下的优秀性能和对伪造攻击的强抗性。

第六章结论

本文提出了一种在频域中操作的数字图像水印算法：将具有零均值和单位方差正态分布的实数伪随机序列嵌入到精心选择的DCT系数集合中。该系数集合通过将DCT系数按锯齿形顺序排列并提取前L+M个系数来产生；随后跳过最前面的L个低频系数以保持感知不可见性，将水印信息嵌入到接下来的M个中频系数中。水印嵌入完成后，通过充分利用人类视觉系统的噪声掩蔽特性使水印自适应地匹配被签名图像的局部特征，进一步确保水印的视觉不可见性。

广泛的实验结果令人信服地表明，所提出的水印算法对多种信号处理技术具有良好的鲁棒性，包括JPEG压缩、低通和中值滤波、直方图均衡化和拉伸、抖动处理、高斯噪声添加、图像尺寸调整以及多重水印嵌入等常见操作。这些优秀的实验结果验证了算法的实用价值和在实际应用中的可靠性。

关于满足相互独立性要求的可生成水印最大数量问题，无论是针对同一水印的不同样本还是不同水印之间的样本，确实值得进一步研究；然而，这在实际应用中并不构成真正的问题，因为考虑到多个水印可以同时嵌入在同一图像中，复合水印技术可以用于在大多数应用场景中编码所需的任意大量信息。值得注意的是，即使仅通过在1000个可能水印的集合中选择三个水印进行组合嵌入，也能够实现$10^9$种不同的信息编码组合，这足以满足绝大多数实际应用的需求。

试图为未来研究工作勾勒发展方向，似乎仍有充足的空间来进一步改进和完善所提出的方法。未来的研究工作将专注于研究使用DFT替代DCT的可能性，以便使水印系统能够抵抗几何平移攻击。研究还可以专注于彩色图像水印技术的开发（目前彩色图像水印是通过简单处理图像的亮度分量来实现的，从而忽略了图像不同颜色通道之间的相关性），水印序列长度的最优选择问题，以及水印在DCT频谱中的最优位置分布策略。此外，在不损害算法鲁棒性的前提下可以生成的水印最大数量这一理论问题也值得进行更深入的数学分析和实验验证。

参考文献

F.M. Boland, J.J.K. Ó Ruanaidh, C. Dautzenberg, Watermarking digital images for copyright protection, Proc. IEE Conf. Image Process. Appl. (July 1995) 326—331.

A. Bors, I. Pitas, Image watermarking using DCT domain constraints, Proc. IEEE Internat. Conf. on Image Process. (ICIP'96), Vol. III, Lausanne, Switzerland, 16—19 September 1996, pp. 231—234.

I.J. Cox, J. Kilian, T. Leighton, T. Shamoon, Secure spread spectrum watermarking for multimedia, NEC Research Institute Technical Report 95-10, 1995.

I.J. Cox, J. Kilian, T. Leighton, T. Shamoon, Secure spread spectrum watermarking for images, audio and video, Proc. IEEE Internat. Conf. on Image Processing (ICIP'96), Vol. III, Lausanne, Switzerland, 16—19 September 1996, pp. 243—246.

C.T. Hsu, J.L Wu, Hidden signatures in images, Proc. IEEE Internat. Conf. on Image Processing (ICIP'96), Vol. III, Lausanne, Switzerland, 16—19 September 1996, pp. 223—226.

E. Koch, J. Rindfrey, J. Zhao, Copyright protection for multimedia data, Proc. Internat. Conf. on Digital Media and Electronic Publishing, Leeds, UK, 6—8 December 1994.

G.C. Langelaar, J.C.A. van der Lubbe, J. Biemond, Copy protection for multimedia data based on labeling techniques, Proc. 17th Symp. Information Theory in The Benelux, Enschede, The Netherlands, May 1996.

N. Nikolaidis, I. Pitas, Copyright protection of images using robust digital signatures, Proc. IEEE Internat. Conf. on Acoustics, Speech and Signal Processing (ICASSP-96), Vol. 4, May 1996, pp. 2168—2171.

J.J.K. Ó Ruanaidh, F.M. Boland, W.J. Dowling, Phase watermarking of digital images, Proc. IEEE Internat. Conf. on Image Processing (ICIP'96), Vol. III, Lausanne, Switzerland, 16—19 September 1996, pp. 239—242.

I. Pitas, Digital Image Processing Algorithms, Prentice-Hall, New York, 1993.

I. Pitas, A method for signature casting on digital images, Proc. IEEE Internat. Conf. on Image Processing (ICIP'96), Vol. III, Lausanne, Switzerland, 16—19 September 1996, pp. 215—218.

C. Podilchuk, W. Zeng, Perceptual watermarking of still images, Proc. The First IEEE Signal Processing Society Workshop on Multimedia Signal Processing, Princeton, NJ, June 1997.

W.H. Press et al., Numerical Recipes In C: The Art of Scientific Computing, Cambridge University Press, Cambridge, 1994.

RACE Project M 1005, Access Control and COpyright Protection for Images (ACCOPI). Workpackage 8: Watermarking, Technical Report, June 1995.

C.F. Stromeyer III, B. Julesz, Spatial frequency masking in vision: critical bands and spread of masking, J. Opt. Soc. Amer. 62 (10) (October 1972) 1221—1232.

M.D. Swanson, B. Zhu, A.H. Tewfik, Transparent robust image watermarking, Proc. IEEE Internat. Conf. on Image Processing (ICIP'96), Vol. III, Lausanne, Switzerland, 16—19 September 1996, pp. 211—214.

B. Tao, B. Dickinson, Adaptive watermarking in the DCT domain, Proc. IEEE Internat. Conf. on Acoustics, Speech and Signal Processing (ICASSP97), Munich, Germany, 21—24 April 1997

R.G. van Schyndel, A.Z. Tirkel, C.F. Osborne, A digital watermark, Proc. IEEE Internat. Conf. on Image Processing (ICIP'94), Vol. 2, Austin, Texas, 13—16 November 1994, pp. 86—90.

G. Voyatzis, I. Pitas, Applications of toral automorphisms in image watermarking, Proc. IEEE Internat. Conf. on Image Processing (ICIP'96), Vol. II, Lausanne, Switzerland, 16—19 September 1996, pp. 237—240.

G.K. Wallace, The JPEG still picture compression standard, Commun. ACM 34 (4) (April 1991) 30—40.

P. Wolfgang, E.J. Delp, A watermark for digital images, Proc. IEEE Internat. Conf. on Image Processing (ICIP'96), Vol. III, Lausanne, Switzerland, 16—19 September 1996, pp. 219—222.

J. Zhao, E. Koch, Embedding robust labels into images for copyright protection, Proc. Internat. Congress on Intellectual Property Rights for Specialized Information, Knowledge and New Technologies, Vienna, Austria, 21—25 August 1995, pp. 242—251.

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

基于大模型的决策支持AI原生应用开发实践

在传统决策支持系统（如CRM、ERP中的规则引擎）中，决策逻辑依赖人工编写的规则或简单的统计模型，难以处理“用户评论隐含情绪”“供应链异常模糊信号”等非结构化信息。而基于大模型的AI原生应用，能直接通过自然语言理解、多模态推理和动态优化，让系统像“人类专家”一样分析复杂问题并给出建议。本文将聚焦如何用大模型重构决策支持系统，覆盖技术原理、开发流程、实战案例三大核心。

2048 AI社区

AI应用架构师经验谈：数据资产评估智能体落地中如何平衡技术与业务价值

这个比喻你可能听过。其评估维度通常包括但不限于：数据质量、数据量、数据相关性、数据时效性、数据稀缺性、数据应用场景、数据产生的收益、数据成本、数据合规性等。单个企业的数据资产评估智能体的价值是有限的，如果能在安全合规的前提下，实现跨企业、跨行业的数据资产价值评估标准和模型的共享与协同，将能更充分地释放数据要素的潜能。所以，我们开发数据资产评估智能体，不仅仅是为了炫技，更是为了解决企业在数据资产管理