一种金字塔增强的抗噪水印方法：面向鲁棒高质量的图像保护

姜昊; 姚宇晗; 王嘉豪; 李星辰; 王丁科; 汤新坤; 李俊韬; 寇菲菲

doi:10.11992/tis.202507022

一种金字塔增强的抗噪水印方法：面向鲁棒高质量的图像保护

doi: 10.11992/tis.202507022

1.
国家广播电视总局广播电视科学研究院, 北京 100866;
2.
北京邮电大学计算机学院(国家示范性软件学院), 北京100876;
3.
北京物资学院信息学院, 北京 101149

基金项目: 国家重点研发计划青年科学家项目(2021YFF0900200)；国家自然科学基金项目(62002027，62472042，62572075)；北京物资学院系统科学研究院开放课题(BWUISS31)；北京市自然科学基金项目(L233034，L257023)；中央高校基本科研业务费(2025TSQY01).

详细信息

作者简介:
姜昊，工程师，主要研究方向为广播电视、人工智能和模式识别。E-mail：jianghao@abs.ac.cn;

姚宇晗，硕士研究生，主要研究方向为社交网络内容安全、多模态数字盲水印。E-mail：yaoyuhan@bupt.edu.cn;

寇菲菲，讲师，博士，主要研究方向为社交网络数据挖掘、多媒体内容安全、大模型算法及应用，发表学术论文70余篇。E-mail：koufeifei000@bupt.edu.cn.

通讯作者:
寇菲菲. E-mail：koufeifei000@bupt.edu.cn.

中图分类号: TP391.4
出版历程
- 收稿日期: 2025-07-16
- 网络出版日期: 2026-01-05

Pyramid-enhanced noise-resilient watermarking for robust and high-quality image protection

1.
Academy of Broadcasting Science, National Radio and Television Administration, Beijing 100866, China;
2.
School of Computer Science (National Pilot Software Engineering School), Beijing University of Posts and Telecommunications, Beijing 100876, China;
3.
School of Information, Beijing Wuzi University, Beijing 101149, China

摘要

摘要:
针对数字媒体中图像易被非法盗用和篡改的问题，鲁棒的盲水印技术至关重要。然而，现有方法难以在抵抗现实噪声攻击的同时，保持高提取精度与高视觉质量。为此，本文提出一种金字塔增强的抗噪水印方法(pyramid-enhanced noise-resilient watermarking, PENRW)方法，通过金字塔多尺度特征嵌入与解码质量增强模块，在强噪声下实现了高精度水印提取与最小的图像质量损失。实验结果表明，该方法在鲁棒性和视觉保真度上均优于当前最优模型。
- 盲水印 /
- 信息隐藏 /
- 版权保护 /
- 多尺度特征 /
- 鲁棒性 /
- 噪声攻击 /
- 端到端学习 /
- 深度水印
Abstract:
To address the widespread issue of unauthorized reuse of images in digital media, robust blind watermarking is essential. However, existing methods struggle to simultaneously withstand real-world noise attacks while maintaining high extraction accuracy and excellent visual quality. To this end, we propose Pyramid-Enhanced Noise-Resilient Watermarking (PENRW), which leverages pyramid-based multi-scale feature embedding and a watermark-decoding quality enhancement module to achieve highly accurate watermark extraction under strong noise with minimal image quality degradation. Experiments demonstrate that our method surpasses current state-of-the-art approaches in both robustness and visual fidelity.
- blind watermarking /
- information hiding /
- copyright protection /
- multi-scale features /
- robustness /
- noise attacks /
- end-to-end learning /
- deep watermarking

HTML全文

在数字媒体和社交网络的快速发展下，图像盗用和侵权问题已引起社会各界的广泛关注。为了应对这一问题，现有方法将数字盲水印技术应用于各个领域^[1-3]，旨在保护图像不被盗用的同时保持较高的视觉质量，进而保障创作者的合法权益。然而，带有水印的图像在传输过程中可能会受到各种潜在的攻击，这些攻击会损坏图像并使其携带的水印信息失效。现有的图像数字水印方法可分为传统算法(如LSB(least significant bit)^[4-5]、S-UNIWARD(spatial universal wavelet relative distortion)^[6]、DCT(discrete cosine transform)^[7]、DWT(discrete wavelet transform)^[8-9]、SWT(stationary wavelet transform)^[10]等)和基于深度学习的方法。

传统方法的研究早期聚焦于空间域与频率域。空间域方法以最低有效位(least significant bit, LSB)算法^[4]为代表，该方法通过直接替换像素的最低比特位来嵌入信息，虽然实现简单，但因其嵌入信息与图像内容关联微弱导致鲁棒性极差，任何轻微的图像处理操作都可能将其完全破坏^[5]。为弥补这一不足，研究重心逐渐转向频率域。频率域方法利用人类视觉系统对高频分量不敏感的特点来隐藏信息。其中，基于离散余弦变换(discrete cosine transform, DCT)的方法因其与JPEG(joint photographic experts group)压缩标准的内在关联，在抵抗压缩攻击方面表现出天然优势^[7]。而离散小波变换(discrete wavelet transform, DWT)则凭借更优的多分辨率分析能力和与人类视觉系统更好的拟合性而被广泛采用^[9]。为进一步增强对旋转、裁剪等几何攻击的抵抗力，研究者们还探索了将DWT与奇异值分解(singular value decomposition, SVD) 等技术相结合的混合方案^[10]，或通过对水印进行加密预处理来提升安全性，如沈艳冰等^[11]利用Logistic映射与Arnold变换对快速响应码(quick response code, QR码)进行双重加密。然而，这些传统方法存在一个共同的瓶颈：它们均依赖于固定的、手工设计的嵌入规则，这使得其泛化能力受限，当面对设计时未预见的复杂或组合式攻击时性能往往会急剧下降。深度学习的兴起为水印领域带来了范式转变，其核心优势在于构建端到端的可训练模型，以协同优化各项核心指标。其中，Zhu等^[12]提出的HiDDeN(hiding data with deep networks)框架首次构建了一个由编码器、可微噪声层和解码器组成的完整对抗博弈框架，通过在训练中模拟多种失真，实现了对不可感知性与鲁棒性的端到端联合优化。后续研究在HiDDeN的基础上从不同角度进行了改进。例如，为了更好地平衡不可感知性与鲁棒性，IGA(inverse gradient attention)^[13]引入了逆梯度注意力机制，引导水印优先嵌入到视觉不敏感的平滑区域。针对JPEG这一棘手的非可微攻击，MBRS(mini-batch of real and simulated JPEG compression)^[14] 设计了一种包含真实与模拟JPEG样本的小批量混合训练策略，显著提升了模型对JPEG压缩的鲁棒性。而StegaStamp^[15] 通过模拟打印和拍摄过程中的各种畸变，生成了对物理世界失真具有极强鲁棒性的水印。

近年来，研究者开始探索更先进的学习范式来寻求性能上的突破。一些工作利用生成对抗网络(generative adversarial network, GAN)，将判别器网络设计为攻击者的角色，通过对抗训练迫使编码器生成更难察觉的水印^[16]。还有研究通过设计同时关注全局和局部特征的双判别器来更全面地评估水印对图像质量的影响，从而进一步提升水印的不可感知性^[17]。另一条极具潜力的技术路线则借鉴了自监督学习(self-supervised learning, SSL)的思想，如SSLW(watermarking images in self-supervised latent spaces) 将水印直接嵌入到预训练模型的潜在特征空间中，利用其强大的表达能力和变换不变性显著提升了对未知攻击的泛化能力^[18]。此外，随着人工智能生成内容(artificial intelligence generated content, AIGC)技术的发展，将水印技术直接集成到扩散模型等大型生成模型的生成过程中也已成为备受关注的新兴研究方向^[19]。

尽管基于深度学习的方法取得了长足进步，但在实际应用时仍面临两大挑战。首先，现有方法难以在抵抗噪声攻击的同时保证图像质量。其次，现有方法主要针对少数非几何攻击(如JPEG^[14])的鲁棒性进行测试，而忽略了现实世界中常见的几何攻击(如仿射变换、旋转)以及典型的组合噪声攻击。

为应对上述挑战，多尺度特征分析提供了一条极具前景的解决思路^[20-21]。在计算机视觉领域，融合多尺度信息已被证实是捕捉图像从细粒度纹理到高层语义上下文的关键，并被用来捕捉细粒度细节和更广泛的上下文特征。然而，现有少数融合多尺度的水印方法或依赖传统小波变换，未能充分发挥端到端学习的优势；或采用额外的复杂网络模块，导致了过高的计算开销^[22-23]。

在此背景下，本文提出一种高效且自适应的多尺度水印嵌入与恢复方案。本文注意到，采用扩张卷积构建金字塔结构是计算机视觉领域一项成熟且高效的多尺度特征提取技术。扩张卷积通过在卷积核中引入空洞，能够在不增加额外计算成本和参数量的前提下指数级地扩大感受野，从而有效捕获图像的上下文信息^[24]。研究者们在此基础上提出了空间金字塔池化模块，通过并行使用多个不同扩张率的扩张卷积，在同一层中捕获并融合多个尺度的特征，该结构在语义分割等密集预测任务中展现了较好性能^[25]。将多尺度分析的思想迁移至图像盲水印领域具有天然的优势。数字水印的鲁棒性与不可感知性之间存在着内在的矛盾，而多尺度特征恰好为此提供了一个理想的平衡策略：将水印信息嵌入图像的低频分量(粗尺度特征)中，能够有效抵抗压缩、噪声等常见攻击；而将其嵌入高频分量(细粒度纹理)中，则有助于维持图像的高视觉质量^[26]。现有研究已尝试利用多尺度信息增强水印性能，但大多依赖于传统的小波变换或复杂的网络结构^[27]。受此启发，本文创新性地设计了一种名为金字塔增强的抗噪水印方法(pyramid-enhanced noise-resilient watermarking, PENRW) 的图像数字水印框架。该框架的核心是设计一个金字塔增强嵌入(pyramid enhanced embedding, PEE) 模块，借鉴空间金字塔池化的思想，通过一组并行的、具有不同扩张率的扩张卷积，从图像特征中高效地提取并融合丰富的多尺度信息。本文的主要贡献如下：

1)创新性地设计了金字塔增强嵌入(PEE)模块，该模块在不明显增加计算复杂度的前提下，通过引入多尺度信息，显著提升了水印的隐蔽性，并有效增强了对多种噪声组合攻击的鲁棒性。

2)设计了一种解码质量增强模块，并构建一个噪声池，通过递增式地施加组合噪声效应进行训练，从而显著提升模型对各类噪声攻击的鲁棒性。

3)实验结果表明，本文提出的图像数字水印框架PENRW在视觉质量和鲁棒性方面均优于当前先进的方法。

1. 所提方法

本文所提方法框架示意如图1所示。该框架是一个端到端的可训练系统，其核心在于通过一个统一的对抗性学习范式对一个由水印嵌入网络、可微噪声层和水印提取网络级联而成的完整链路进行联合优化，通过解耦的方式在不可感知性与鲁棒性这两大核心且相互制约的挑战之间取得更优的平衡。为应对现实世界中信号失真(如高斯噪声)与几何失真(如仿射变换)的复杂组合，本文在提取端设计了一个专用的、由去噪网络(denoise network，DNet)和抗透视失真网络(perspective distortion- resistant network，PDRNet)级联而成的解码质量增强模块，在解码前对受损图像进行主动修复与校正，为后续解码器创造更有利的提取条件，从而显著提升了后续解码器在恶劣条件下的信息提取准确率。

图 1 本文提出的方法框架的示意

Fig. 1 Illustration of the proposed framework

下载: 全尺寸图片

1.1 水印嵌入

水印嵌入网络的目标是将一个二进制信息序列$ {\boldsymbol{M}}_{\text{S}} $隐蔽地嵌入到原始载体图像$ {\boldsymbol{I}}_{\text{P}} $中，并生成一个在视觉上无显著差异的含水印图像$ {\boldsymbol{I}}_{\text{W}} $。该网络由水印扩散、金字塔增强嵌入和编码器级联构成。

1.1.1 水印扩散模块

原始水印信息$ {\boldsymbol{M}}_{\text{S}} $是一个长度为L、取值为$ \left\{0,1\right\} $的二进制序列，因此难以直接嵌入作为高维空间数据的图像之中。本文设计了一个水印扩散模块，将$ {{\boldsymbol{M}}}_{{\mathrm{S}}} $映射并扩展为一个与图像特征维度相匹配的高维张量。水印通过扩散模块被转换为与$ h\times w\times c $的张量$ {\boldsymbol{I}}_{\text{P}} $匹配的形态，扩散过程为

$$ {{\boldsymbol{\varPsi}} }_{\text{Diffusion}}={O}_{\text{up}}({O}_{\text{reshape}}({\Gamma }_{\text{dense}}({\boldsymbol{M}}_{\text{S}} ))) $$

式中：$ {\Gamma }_{{\mathrm{dense}}} $表示一个全连接层，用于将$ {{\boldsymbol{M}}}_{{\mathrm{S}}} $扩展为一个长度为$ \dfrac{h}{4}\times \dfrac{w}{4}\times c $的一维向量；$ {O}_{\text{reshape}} $是一个重塑操作，用于将二进制序列转换为长度为$ \dfrac{h}{4}\times \dfrac{u}{4}\times c $的张量；$ {O}_{\text{up}} $是一个$ \left(4,4\right) $的上采样层，用于确保张量尺寸与$ {\boldsymbol{I}}_{\text{P}} $匹配。该过程首先通过一个全连接层 $ {\Gamma }_{\text{dense}} $ 将长度为L的扩展为一个高维向量，并通过重塑操作$ {O}_{\text{reshape}} $将其转换为一个具有空间维度的张量，最后利用上采样操作$ {O}_{\text{up}} $将其空间分辨率提升至与载体图像$ {\boldsymbol{I}}_{\text{P}} $一致，为后续的卷积操作和特征级融合奠定了基础。

1.1.2 金字塔增强嵌入模块

本文提出水印应被嵌入到图像的深层语义特征而非原始像素中，这有利于在不牺牲视觉质量的前提下提升水印的隐蔽性和鲁棒性。受空间金字塔池化思想的启发，本文设计了一个金字塔增强嵌入(PEE)模块，其核心在于以极高的计算效率提取图像的多尺度特征。如图1(b₁)所示，PEE模块并行地使用了一组具有不同扩张率的扩张卷积处理输入图像，通过减少通道维度生成富含多尺度上下文细节的输出。这种设计使得网络能够在不增加参数量和计算负担的情况下获得大小各异的感受野，从而同时捕捉到图像的局部细节纹理和全局结构信息。该过程的数学表示为

$$ {{\boldsymbol{\varPsi}} }_{\text{PEE}}={\Gamma }_{1\times 1}({O}_{\text{cat}}(\Gamma _{3\times 3}^{i}({O}_{\text{copy}}({\boldsymbol{I}}_{\text{P}})))) $$

式中：$ {O}_{\text{copy}} $表示在扩张卷积中使用$ {\boldsymbol{I}}_{\text{P}} $的副本； $ O{}_{\text{cat}} $是对来自扩张卷积的张量进行拼接的操作符；$ {\Gamma }_{1\times 1} $是用于减少通道维度的$ 1\times 1 $卷积；$ \Gamma _{3\times 3}^{i} $是扩张率为$ 3\times 3 $的卷积，$ i\in \left\{2,4,16\right\} $。本文将并行提取的多尺度特征图进行拼接，并通过一个卷积模块进行通道降维与信息融合。这样得到的特征图聚合了丰富的多尺度上下文信息，有效整合了图像在不同尺度下的结构与纹理冗余，为利用图像冗余以嵌入高不可感知性水印提供了理想的载体。

1.1.3 编码器

编码器的核心任务在于将扩散后的水印信息与经由PEE模块处理的图像特征进行深度融合。为实现水印信息与图像特征的有效融合，编码器采用U-Net架构。该U-Net架构由5层跨度为2的下采样卷积与5层跨度为2的上采样卷积组成，其中最高的通道数为256。该网络将拼接后的水印与图像特征作为输入，并借助其独特的跳跃连接将编码器浅层的纹理、边缘等细节特征直接传递给解码器的对应层。这一机制确保了水印的嵌入过程能充分利用图像的底层内容信息并化水印分布，从而提升其不可感知性。编码器网络通过一系列卷积和下采样操作，自适应地调整水印信息的空间分布，最终输出残差信号$ {\boldsymbol{I}}_{\text{S}} $。当$ {\boldsymbol{I}}_{\text{S}} $添加到原始图像时，最终可以得到含水印图像$ {\boldsymbol{I}}_{\text{W}} $。

1.2 噪声层

如图2所示，为了增强水印对真实世界图像攻击的鲁棒性，本文将一个图像攻击层与其他基础模块融合，设计了一个噪声层作为编码器和解码器之间的桥梁。该层在训练过程中对含水印图像$ {\boldsymbol{I}}_{\text{W}} $施加一系列模拟攻击，从而迫使整个网络学习到对这些失真具有稳定性的水印表示。

图 2 在不同噪声条件下的图像对比(基于本文的噪声池)

Fig. 2 Comparisons of the image under various noises in our noise pool

下载: 全尺寸图片

本文选择了7种在图像传播中常见的单一噪声类型，包括高斯噪声、裁剪替换、像素丢弃、缩放、仿射变换、旋转、JPEG，单一攻击噪声池的集合可表示为

$$ \begin{aligned} {N}_{\text{pool}}^{\text{single}}&=\{\text{GausNoise},\text{Cropout},\text{Dropout},\\ & \text{Resize,Affine},\text{Rotation},\text{JPEG}\} \end{aligned} $$

本文使用在真实场景中最可能同时出现的高斯噪声、仿射变换和JPEG压缩的不同组合作为组合噪声池，在每次训练迭代中从这些噪声池中随机选择一种或多种攻击施加于图像，从而确保模型能够泛化至多样的、不可预见的真实世界失真环境。组合攻击的形式可表示为

$$ \begin{gathered} {N}_{\text{pool}}^{\text{combined}} =\{\text{GausNoise\&Affine},\text{GausNoise\&JPEG},\\ \text{Affine\&JPEG},\text{GausNoise\&Affine\&JPEG}\} \end{gathered} $$

式中&表示图像被依次叠加了对应的攻击方式。

由于裁剪替换和像素丢弃往往涉及用原始图像替换含水印图像的部分区域，这种处理方式在水印研究中很常见^[16,28-29]，但肉眼难以明显分辨出攻击方式。因此它们的攻击效果未在图2中给出。

1.3 水印提取

水印提取网络的任务是从可能经过噪声污染的图像$ {\boldsymbol{I}}_{\text{N}} $中准确地恢复出原始的二进制信息$ {\boldsymbol{M}}_{\text{R}} $。为应对复杂的噪声(特别是高斯噪声和几何失真)，本文设计了一个由解码质量增强模块和解码器组成的级联结构。

1.3.1 解码质量增强模块

为了确保即使在高斯噪声和透视失真图像攻击存在的情况下也能高质量地提取并成功解码水印，本文提出了解码质量增强模块，在解码前对受损图像进行预处理和修复。

本文的解码质量增强模块由一个去噪网络(DNet)和一个抗透视失真网络(PDRNet)组成。去噪网络(如图1(b₂)所示)的关键组件是残差注意力模块(residual attention module, RAM)。为实现图像降噪，每个输入图像$ {\boldsymbol{I}}_{\text{N}} $将由n个RAM(本文中实际设定中n=3)处理：

$$ {{\boldsymbol{\varPsi}} }_{\text{DNet}}={\Gamma }_{3\times 3}({\boldsymbol{\varPhi}} _{\text{RAM}}^{n}({\boldsymbol{I}}_{\text{N}})) $$

式中：$ {\Gamma }_{3\times 3} $代表3×3卷积层。每个RAM(由一个包含2个卷积层和1个通道注意力层的残差块组成，如图1(b₂)所示。相应公式为

$$ {{\boldsymbol{\varPhi}} }_{\text{RAM}}={\boldsymbol{x}}_{\text{in}}+{{\boldsymbol{\varPhi}} }_{\text{Attention}}({\Gamma }_{3\times 3}({\Gamma }_{3\times 3}({\boldsymbol{x}}_{\text{in}}))) $$

式中：$ {{\boldsymbol{\varPhi}} }_{\text{Attention}} $是通道注意力层。其计算过程为

$$ {{\boldsymbol{\varPhi}} }_{\text{Attention}}=\sigma (\Gamma _{\text{dense}}^{2}\sigma (\Gamma _{\text{dense}}^{1}({\boldsymbol{x}}_{\text{gap}}))\times {\boldsymbol{x}}_{\text{m}} $$

式中：$ {\boldsymbol{x}}_{\text{m}} $是原始矩阵；$ {\boldsymbol{x}}_{\text{gap}} $是$ 1\times 1\times c $的全局平均池化特征向量；$ \Gamma _{\text{dense}}^{\text{1}} $和$ \Gamma _{\text{dense}}^{\text{2}} $表示两个全连接层，$ \sigma $代表sigmoid归一化。$ {\boldsymbol{x}}_{\text{gap}} $可以通过以下操作获得：

$$ {\boldsymbol{x}}_{\text{gap}}=\frac{1}{h\times w}\sum\limits_{i=1}^{h}\sum\limits_{j=1}^{w}{\boldsymbol{x}}_{\text{c}}(i,j) $$

式中：$ {\boldsymbol{x}}_{\text{c}} $表示特征图，$ h $和$ w $是$ {\boldsymbol{x}}_{\text{c}} $的高和宽，$ {\boldsymbol{x}}_{\text{gap}} $是$ 1\times 1\times c $的特征向量。

抗透视失真网络利用了一个空间变换网络^[30]，如图1(b₃)所示。使用PDRNet进行图像恢复的关键是获得空间变换参数矩阵$ {\boldsymbol{\theta}} $：

$$ {\boldsymbol{\theta}}={f}_{\text{loc}}(\boldsymbol{U})={\Gamma }_{\text{dense}}({O}_{\text{flatten}}(\Gamma _{3\times 3}^{3}(\boldsymbol{U}))) $$

式中：U代表输入特征图，$ \Gamma _{3\times 3}^{3} $表示应用于U的三个$ 3\times 3 $卷积层，$ {O}_{\text{flatten}} $将二位特征图展平为一维向量，$ {\Gamma }_{\text{dense}} $是一个输出变换参数${\boldsymbol{\theta}}$的全连接层，使用基于$ {\boldsymbol{\theta}} $的网格生成器G来获得变换后的特征图。

1.3.2 解码器

为提取恢复的水印信息，经过解码质量增强后的最终图像被输入到解码器中，如图1(a)所示。解码器的结构与编码器近似对称，核心在于通过一系列卷积和下采样操作逐步聚合空间信息，并将高维的图像特征映射回低维的信息空间，最终通过一个全连接层输出恢复的二进制水印信息$ {\boldsymbol{M}}_{\text{R}} $。该过程用公式表示为

$$ {\boldsymbol{M}}_{\text{R}}={\Gamma }_{\text{dense}}(\Gamma _{3\times 3}^{n}({\boldsymbol{I}}_{\text{N}})) $$

式中：$ \Gamma _{3\times 3}^{n} $表示一系列$ 3\times 3 $卷积层和$ 3\times 3 $下采样卷积层；$ {\Gamma }_{\mathrm{dense}} $是最终压缩到$ {\boldsymbol{M}}_{\text{S}} $长度的全连接层。

1.4 网络训练

本文使用多种损失函数来实现水印嵌入的高不可见性和对图像攻击的高鲁棒性，以端到端的方式对整个框架进行联合优化，如图1(c)所示。这些损失函数同时约束了水印的嵌入和提取过程。

1.4.1 水印嵌入

本文设计了一组损失$ {\boldsymbol{L}}_{\text{Emb}} $以引导编码后的图像$ {\boldsymbol{I}}_{\text{W}} $与原始图像$ {\boldsymbol{I}}_{\text{P}} $的相似性：

$$ {{L}}_{\text{Emb}}={\lambda }_{\text{D}}{{L}}_{\text{D}}+{\lambda }_{\text{P}}{{L}}_{\text{P}}+{\lambda }_{\text{S}}{{L}}_{\text{S}}+{\lambda }_{\text{W}}{{L}}_{\text{W}} $$

式中：$ {{L}}_{\text{D}} $是像素级的L2距离损失，用于保证基础的像素保真度。$ {{L}}_{\text{P}} $是LPIPS感知损失^[31]，它通过比较深度特征空间的差异来度量图像相似性，比L2损失更符合人类的视觉感知。$ {{L}}_{\text{S}} $是信噪比损失，用于控制嵌入信号的能量。$ {{L}}_{\text{W}} $是由一个判别器网络计算的对抗损失，它促使编码器生成让判别器无法区分真伪的图像，从而进一步提升视觉质量，如图1(a)所示。

1.4.2 水印提取

对于水印提取损失$ {{L}}_{\text{Ext}} $，本文对每对原始水印$ {\boldsymbol{M}}_{\text{S}} $和恢复水印$ {\boldsymbol{M}}_{\text{R}} $采用带权重系数$ {\lambda }_{\text{C}} $的交叉熵损失$ {{L}}_{\text{C}} $来度量二者之间的差异：

$$ {{L}}_{{\mathrm{Ext}}}={\lambda }_{\text{C}}{{L}}_{\text{C}} $$

最终，模型的优化目标是最小化嵌入损失和提取损失的加权和。本文的模型通过最小化总训练损失$ {{L}}_{\text{Total}} $进行优化，通过调整权重系数，本文可以灵活地控制不可感知性与鲁棒性之间的权衡：

$$ {{L}}_{\text{Total}}={{L}}_{\text{Emb}}+{{L}}_{\text{Ext}} $$

2. 实验结果

2.1 基础设置

2.1.1 评价指标

数字水印技术的核心在于不可感知性、鲁棒性和容量三者之间的权衡与优化。一个合格的水印算法必须在这几个相互制约的属性间取得理想的平衡。为了全面、多维度地衡量PENRW框架的性能，本文采用客观量化指标与主观评价相结合的方法。

为评估方法的性能，本文同时考虑了不可感知性(使用$ {\boldsymbol{I}}_{\text{P}} $和$ {\boldsymbol{I}}_{\text{S}} $之间的PSNR(peak signal-to-noise ratio)和SSIM(structural similarity index measure)和鲁棒性(使用$ {\boldsymbol{M}}_{\text{S}} $和$ {\boldsymbol{M}}_{\text{R}} $之间的准确率(accuracy，ACC))，并使用范围从1(最低)到5(最高)的平均主观意见分(mean opinion score, MOS)来衡量志愿者对图像质量的满意度。

2.1.2 实现细节

本文提出的模型基于 TensorFlow 2.4.0 框架实现，所有实验均在一块 NVIDIA RTX 3090 GPU 上进行训练与测试。在训练阶段，本文采用 Adam 优化器对网络参数进行优化，初始学习率设置为1×10⁻⁴，批量大小设置为 32。输入网络的载体图像尺寸被统一调整为 128×128×3，待嵌入的水印信息为长度 32 位的二进制序列，并选择$ {\lambda }_{\text{D}}=2.0 $，$ {\lambda }_{\text{P}}=1.0 $,$ {\lambda }_{\text{S}}=0.5 $，$ {\lambda }_{\text{W}}=1.0 $和$ {\lambda }_{\text{C}}=1.5 $作为损失函数的权重因子。

2.1.3 数据集

本模型在Coco2017^[32]、DIV2K^[33]和WikiArt^[34]数据集上进行训练和评估。Coco2017数据集是一个场景复杂的大规模数据集，包含大量自然场景图像。本文从中选取10 000张图像用于训练，5 000张图像用于测试。对于常用于图像超分辨率等任务的高质量图像数据集DIV2K数据集，本文使用500张图像进行训练，并从验证集中选取100张图像进行测试。WikiArt数据集是一个包含大量艺术画作的图像数据集，其图像在纹理、色彩分布和统计特性上与自然图像有显著差异，本文使用5 000张图像进行训练，并另选5 000张图像进行测试。

2.2 与基线模型的性能比较

2.2.1 基线模型

为全面评估本文所提方法的性能，本文选取了数个当前主流的深度学习水印模型作为基线(Baselines)，具体包括：首个可训练的端到端深度学习水印框架HiDDeN^[9]；将编码与解码过程解耦为两阶段独立优化的新型框架De-end^[35]；利用逆梯度注意机制隐藏数据的 IGA^[13]；引入注意力引导的生成对抗网络以增强鲁棒性的ARWGAN^[16]；采用生成对抗网络(GAN)来提升对物理世界攻击鲁棒性的StegaStamp^[15]；无需重训练即可在消息容量和鲁棒性之间进行灵活权衡的 Flexmark^[29]；通过小批量真实与模拟JPEG样本来增强鲁棒性的MBRS^[14]；以及利用自监督学习来抵抗噪声攻击的SSLW^[18]。

2.2.2 视觉质量

更高的PSNR和SSIM值意味着含水印图像具有更优秀的视觉质量，嵌入的信息也更难被察觉。具体的视觉质量对比如图3所示。如图4所示，本模型在3个数据集上的平均PSNR值和平均SSIM值均有提升。此外，如表1所示，本模型在30名志愿者参与的MOS主观评估中获得了最高分。实验结果表明，本方法对图像的视觉影响整体更小，达到了最佳的视觉质量。

图 3 水印嵌入后视觉质量对比

Fig. 3 Visual quality comparison after watermark embedding

下载: 全尺寸图片

图 4 不同算法在PSNR和SSIM指标上的性能评估

Fig. 4 Performance evaluation of different algorithms on PSNR and SSIM metrics

下载: 全尺寸图片

表 1 不同方法的MOS评分

Table 1 MOS scores for different methods

方法	HiDDeN	IGA	StegaStamp	MBRS	SSLW	PENRW
MOS	3.70	4.12	3.98	4.25	4.30	4.75
注：加粗表示最优结果。

2.2.3 鲁棒性

本文使用ACC作为评估指标在相同的实验设置和单一噪声池$ N_{\text{pool}}^{\text{single}} $ 条件下对本模型与各基线模型的鲁棒性进行了比较，结果如表2所示，每组中的最优结果已用粗体标出。

表 2 不同图像攻击下各模型在多种数据集上的性能对比

Table 2 Comparison of different models under various image attacks on different datasets %

数据集	模型	PSNR↑	鲁棒性(ACC↑)							平均
数据集	模型	PSNR↑	裁剪替换 P=30%	像素丢弃 P=30%	缩放 50%	高斯噪声 R_N=0.3	JPEG Q=50	旋转 D=15°	仿射变换 S=10°	平均
Coco2017	HiDDeN	30.45	91.16	93.10	95.93	86.31	85.37	73.44	70.71	85.14
	IGA	32.81	88.23	94.41	97.61	90.21	87.31	85.73	82.54	89.43
	StegaStamp	33.88	96.41	97.24	98.31	94.38	96.32	95.22	96.72	96.37
	MBRS	34.74	95.73	94.34	97.72	94.73	99.52	89.12	95.46	93.94
	SSLW	35.10	97.30	98.22	84.89	97.82	96.60	97.55	93.52	95.12
	De-END	38.47	92.13	95.63	95.21	98.75	99.12	95.32	94.33	95.78
	ARWGAN	34.59	97.06	98.81	92.83	98.26	95.36	95.70	95.53	96.22
	FlexMark	30.73	98.96	98.28	95.00	99.36	91.25	92.50	95.26	95.87
	PENRW	38.14	99.01	99.60	98.67	99.41	99.30	96.23	96.53	98.39
WikiArt	HiDDeN	30.55	89.96	92.28	95.53	84.24	84.62	70.10	71.72	84.06
	IGA	32.53	87.67	93.21	96.14	90.51	87.42	84.43	81.87	88.75
	StegaStamp	34.01	97.32	96.73	98.71	93.67	96.02	95.56	95.21	96.17
	MBRS	34.54	94.24	92.92	96.25	94.18	99.14	88.02	84.92	92.81
	SSLW	35.06	98.02	99.05	94.27	98.24	97.96	94.55	93.80	96.98
	De-END	37.62	90.21	94.58	94.33	97.32	98.05	94.58	93.05	94.59
	ARWGAN	34.96	95.14	97.45	90.00	96.19	94.88	94.80	94.33	94.68
	FlexMark	33.96	98.78	95.14	91.43	94.50	89.91	77.29	78.50	89.39
	PENRW	37.94	98.81	99.22	98.53	99.55	99.23	95.92	96.25	98.22
DIV2k	HiDDeN	30.75	90.54	92.67	94.94	85.01	84.42	70.75	70.21	84.07
	IGA	32.44	85.51	94.14	96.23	89.24	86.62	85.39	82.10	88.46
	StegaStamp	34.11	96.77	96.48	98.34	93.87	96.45	95.80	96.03	96.25
	MBRS	35.14	94.98	93.47	97.49	93.96	98.79	88.60	85.21	93.21
	SSLW	35.08	97.11	98.83	93.82	97.84	97.18	95.73	94.32	96.40
	De-END	37.51	91.53	94.75	94.00	98.99	98.23	95.17	94.08	95.25
	ARWGAN	35.59	94.49	96.78	89.36	95.28	95.34	93.86	93.71	94.12
	FlexMark	30.39	98.44	97.72	95.53	99.06	90.71	91.19	94.57	95.41
	PENRW	37.61	98.71	99.54	98.02	99.33	99.17	96.89	96.42	98.29
注：加粗表示每组最优结果。

结果表明，在多数单一攻击场景下，本文的PENRW均表现出较好的性能。在所有3个数据集上，其平均ACC均大幅领先于所有对比方法。PENRW在大多数单项攻击(尤其是抵抗旋转和仿射变换等几何攻击)中性能优势尤为明显。例如，在Coco2017数据集上，其旋转攻击下的ACC达到96.23%，仿射变换下达到96.53%。许多传统的深度学习水印模型在面对这类攻击时性能会急剧下降，因为几何变换会破坏像素的空间对应关系，导致解码器“失准”，而PENRW在此类攻击上的优异表现，初步证明了其架构设计的先进性。

尽管PENRW在COCO2017数据集上应对JPEG压缩和仿射变换攻击时并非最佳，但其结果已非常接近最优基线，并在WikiArt和DIV2k数据集上展现出更强的泛化能力。综合来看，本模型在3个数据集上的平均ACC相较于HiDDeN、IGA、StegaStamp、MBRS和SSLW优势明显，取得了最佳的平均性能。

本文进一步选取了在单一攻击环境中表现最优的3个基线模型进行组合噪声攻击实验。如表3中$ {N}_{\text{combined}} $的结果所示，本方法的平均性能与StegaStamp、MBRS和SSLW相比均有提升。在所有数据集和所有组合攻击模式下，PENRW的提取准确率都以显著优势领先。尤其是在最严苛的“仿射变换 & 高斯噪声& JPEG压缩”组合攻击下，PENRW在Coco2017数据集上依然能达到92.53%的准确率，而表现次之的SSLW仅为89.19%。上述实验结果充分证明，PENRW无论在单一噪声还是组合噪声攻击环境下，均具备出色的鲁棒性。

表 3 对比抗组合噪声的准确率

Table 3 Comparison of ACC against combined noises %

数据集	模型	仿射变换&JPEG	高斯噪声&Jpeg	高斯噪声& 仿射变换	仿射变换& 高斯噪声&JPEG	平均
Coco2017	StegaStamp	90.15	87.82	89.97	84.50	88.11
	MBRS	88.34	90.37	82.67	75.28	84.17
	SSLW	94.42	93.59	90.83	89.19	92.00
	PENRW	93.22	97.89	94.34	92.53	94.49
WikiArt	StegaStamp	89.62	88.20	90.13	83.92	87.97
	MBRS	88.91	92.74	80.57	73.40	83.90
	SSLW	95.38	94.32	90.25	87.57	91.88
	PENRW	93.07	96.73	94.51	92.64	94.23
DIV2k	StegaStamp	89.89	85.83	89.42	84.88	87.50
	MBRS	89.41	91.09	83.59	75.14	84.92
	SSLW	93.83	93.65	91.04	90.28	92.20
	PENRW	93.98	97.50	94.79	93.75	95.00
注：加粗表示每组最优结果。

2.3 消融研究

为验证PENRW框架中各组件的有效性，本文进行了消融实验。当某个组件(PEE、DNet或PDRNet)未被使用时，它将从框架中移除，实验结果如表4所示。

表 4 消融研究结果

Table 4 Ablation study results

模型			PSNR/dB	ACC/%
PEE	DNet	PDRNet	PSNR/dB	高斯噪声	仿射变换	高斯噪声& 仿射变换
√	√		36.66	99.72	85.01	80.21
√		√	37.79	93.31	95.73	89.70
	√	√	35.51	99.13	96.76	93.05
√	√	√	38.14	99.41	96.53	94.34

当移除PEE模块时，模型的PSNR从最高的38.14 dB显著下降至36.66 dB。通过多尺度特征融合，PEE模块使得水印能够更智能地嵌入图像，从而在不牺牲鲁棒性的前提下，最大程度地保护了原始图像的视觉质量。当移除DNet模块时，模型抵抗高斯噪声的能力大幅削弱。在单一高斯噪声攻击下，ACC从99.41%骤降至93.31%，性能下降了6.10%。当移除PDRNet模块时，模型对几何攻击的防御能力受到严重影响。在单一仿射变换攻击下，ACC从96.53%下降至93.05%，表明基于空间变换网络构建的PDRNet在校正几何失真、保证解码器输入对齐方面有一定的效果。

实验结果表明：PEE模块将编码后图像的视觉质量(PSNR)提升了7.4%。在单一高斯噪声攻击和单一仿射变换攻击下，DNet和PDRNet模块分别将解码准确率(ACC)显著提升了6.10%和11.52%。在更复杂的高斯噪声与仿射变换组合攻击下，DNet和PDRNet的贡献同样显著，分别带来了4.64%和12.84%的准确率提升。

2.4 计算消耗对比

作为一种实用性强的技术，数字水印技术所需的计算成本也是重要指标。本文采用各方法在训练过程中所需的参数量作为计算成本的评估指标，如表5所示。

表 5 不同模型在相同设置下的参数量对比

Table 5 Comparison of parameter quantities for different models under the same settings

模型	参数量/万
HiDDeN	412
IGA	427
StegaStamp	2 517
MBRS	2 092
SSLW	2 189
De-END	684
ARWGAN	3 092
FlexMark	12 368
PENRW	2 305

表5列出了所有先前基线模型与本文模型在相同设置下的参数量对比，以评估计算成本。端到端水印方法(如HiDDeN、IGA和De-END)展现出显著较低的参数量，通常保持在百万级范围内。

相比之下，基于GAN的方法参数量大幅增加：例如FlexMark达到1.236 8亿参数，而StegaStamp与MBRS的参数规模在2 000万～3 000万。本文的PENRW模型在保持优异性能的同时，将参数量控制在GAN网络的合理范围内，具体为2 305万参数。

进一步地，本文进行了各个组件对模型整体的参数量以及训练时间的影响的实验，如表6所示。可以看到，PEE的加入增加了参数量，但是在训练时间上甚至少于传统的池化加上采样的方法，因此本文提出的PEE在提升性能与计算效率上均具有优势。

表 6 各组件对模型参数量与训练时间的影响

Table 6 Impact of each component on the number of model parameters and training time

模块组成	参数量	训练时间/(s/100steps)
None	5 957 524	23.17
PEE	5 957 857	23.11
PEE+DNet	6 184 868	53.58
PEE+DNet+PDRNet	23 055 460	58.77

3. 结束语

本文提出了一种名为金字塔增强抗噪水印(PENRW)的新型框架，通过引入多尺度特征提取与专门的抗噪解码质量增强模块，在面对数字水印领域中长期存在的不可感知性与鲁棒性之间的矛盾时有着优秀表现。PENRW在鲁棒性方面展现了极为出色的抵抗攻击能力。在测试中，PENRW在绝大多数单一攻击类型和所有数据集上均取得了最佳或接近最佳的性能，且优势在更贴近现实应用、也更具挑战性的组合噪声攻击场景下被进一步放大，其性能相比本文中的对比模型具有一定优势，展示了其解码质量增强模块在处理复杂失真时的增益。最后，消融实验从机理上验证了本文框架设计的科学性，明确了PEE模块对视觉质量的决定性作用，以及DNet和PDRNet模块分别在抵抗像素噪声和几何攻击方面的不可替代性。

综上所述，本研究的多组实验结果共同证明了PENRW是一个在不可感知性与鲁棒性之间取得了一定的平衡，特别是在复杂真实环境下表现稳健的高性能图像数字水印解决方案。它为数字内容的版权保护提供了一种切实可行的新方法。未来的工作将致力于进一步提升水印的不可感知性，增强对更多类型攻击(尤其是未知攻击)的鲁棒性，并探索将此框架扩展至视频等其他媒体类型的可能性。

图 1 本文提出的方法框架的示意

Fig. 1 Illustration of the proposed framework

下载: 全尺寸图片

图 2 在不同噪声条件下的图像对比(基于本文的噪声池)

Fig. 2 Comparisons of the image under various noises in our noise pool

下载: 全尺寸图片

图 3 水印嵌入后视觉质量对比

Fig. 3 Visual quality comparison after watermark embedding

下载: 全尺寸图片

图 4 不同算法在PSNR和SSIM指标上的性能评估

Fig. 4 Performance evaluation of different algorithms on PSNR and SSIM metrics

下载: 全尺寸图片

表 1 不同方法的MOS评分

Table 1 MOS scores for different methods

方法	HiDDeN	IGA	StegaStamp	MBRS	SSLW	PENRW
MOS	3.70	4.12	3.98	4.25	4.30	4.75
注：加粗表示最优结果。

表 2 不同图像攻击下各模型在多种数据集上的性能对比

Table 2 Comparison of different models under various image attacks on different datasets %

数据集	模型	PSNR↑	鲁棒性(ACC↑)							平均
数据集	模型	PSNR↑	裁剪替换 P=30%	像素丢弃 P=30%	缩放 50%	高斯噪声 R_N=0.3	JPEG Q=50	旋转 D=15°	仿射变换 S=10°	平均
Coco2017	HiDDeN	30.45	91.16	93.10	95.93	86.31	85.37	73.44	70.71	85.14
	IGA	32.81	88.23	94.41	97.61	90.21	87.31	85.73	82.54	89.43
	StegaStamp	33.88	96.41	97.24	98.31	94.38	96.32	95.22	96.72	96.37
	MBRS	34.74	95.73	94.34	97.72	94.73	99.52	89.12	95.46	93.94
	SSLW	35.10	97.30	98.22	84.89	97.82	96.60	97.55	93.52	95.12
	De-END	38.47	92.13	95.63	95.21	98.75	99.12	95.32	94.33	95.78
	ARWGAN	34.59	97.06	98.81	92.83	98.26	95.36	95.70	95.53	96.22
	FlexMark	30.73	98.96	98.28	95.00	99.36	91.25	92.50	95.26	95.87
	PENRW	38.14	99.01	99.60	98.67	99.41	99.30	96.23	96.53	98.39
WikiArt	HiDDeN	30.55	89.96	92.28	95.53	84.24	84.62	70.10	71.72	84.06
	IGA	32.53	87.67	93.21	96.14	90.51	87.42	84.43	81.87	88.75
	StegaStamp	34.01	97.32	96.73	98.71	93.67	96.02	95.56	95.21	96.17
	MBRS	34.54	94.24	92.92	96.25	94.18	99.14	88.02	84.92	92.81
	SSLW	35.06	98.02	99.05	94.27	98.24	97.96	94.55	93.80	96.98
	De-END	37.62	90.21	94.58	94.33	97.32	98.05	94.58	93.05	94.59
	ARWGAN	34.96	95.14	97.45	90.00	96.19	94.88	94.80	94.33	94.68
	FlexMark	33.96	98.78	95.14	91.43	94.50	89.91	77.29	78.50	89.39
	PENRW	37.94	98.81	99.22	98.53	99.55	99.23	95.92	96.25	98.22
DIV2k	HiDDeN	30.75	90.54	92.67	94.94	85.01	84.42	70.75	70.21	84.07
	IGA	32.44	85.51	94.14	96.23	89.24	86.62	85.39	82.10	88.46
	StegaStamp	34.11	96.77	96.48	98.34	93.87	96.45	95.80	96.03	96.25
	MBRS	35.14	94.98	93.47	97.49	93.96	98.79	88.60	85.21	93.21
	SSLW	35.08	97.11	98.83	93.82	97.84	97.18	95.73	94.32	96.40
	De-END	37.51	91.53	94.75	94.00	98.99	98.23	95.17	94.08	95.25
	ARWGAN	35.59	94.49	96.78	89.36	95.28	95.34	93.86	93.71	94.12
	FlexMark	30.39	98.44	97.72	95.53	99.06	90.71	91.19	94.57	95.41
	PENRW	37.61	98.71	99.54	98.02	99.33	99.17	96.89	96.42	98.29
注：加粗表示每组最优结果。

表 3 对比抗组合噪声的准确率

Table 3 Comparison of ACC against combined noises %

数据集	模型	仿射变换&JPEG	高斯噪声&Jpeg	高斯噪声& 仿射变换	仿射变换& 高斯噪声&JPEG	平均
Coco2017	StegaStamp	90.15	87.82	89.97	84.50	88.11
	MBRS	88.34	90.37	82.67	75.28	84.17
	SSLW	94.42	93.59	90.83	89.19	92.00
	PENRW	93.22	97.89	94.34	92.53	94.49
WikiArt	StegaStamp	89.62	88.20	90.13	83.92	87.97
	MBRS	88.91	92.74	80.57	73.40	83.90
	SSLW	95.38	94.32	90.25	87.57	91.88
	PENRW	93.07	96.73	94.51	92.64	94.23
DIV2k	StegaStamp	89.89	85.83	89.42	84.88	87.50
	MBRS	89.41	91.09	83.59	75.14	84.92
	SSLW	93.83	93.65	91.04	90.28	92.20
	PENRW	93.98	97.50	94.79	93.75	95.00
注：加粗表示每组最优结果。

表 4 消融研究结果

Table 4 Ablation study results

模型			PSNR/dB	ACC/%
PEE	DNet	PDRNet	PSNR/dB	高斯噪声	仿射变换	高斯噪声& 仿射变换
√	√		36.66	99.72	85.01	80.21
√		√	37.79	93.31	95.73	89.70
	√	√	35.51	99.13	96.76	93.05
√	√	√	38.14	99.41	96.53	94.34

表 5 不同模型在相同设置下的参数量对比

Table 5 Comparison of parameter quantities for different models under the same settings

模型	参数量/万
HiDDeN	412
IGA	427
StegaStamp	2 517
MBRS	2 092
SSLW	2 189
De-END	684
ARWGAN	3 092
FlexMark	12 368
PENRW	2 305

表 6 各组件对模型参数量与训练时间的影响

Table 6 Impact of each component on the number of model parameters and training time

模块组成	参数量	训练时间/(s/100steps)
None	5 957 524	23.17
PEE	5 957 857	23.11
PEE+DNet	6 184 868	53.58
PEE+DNet+PDRNet	23 055 460	58.77

参考文献(35)

[1]	WAN Wenbo, WANG Jun, ZHANG Yunming, et al. A comprehensive survey on robust image watermarking[J]. Neurocomputing, 2022, 488: 226−247. doi: 10.1016/j.neucom.2022.02.083
[2]	XIAO Di, ZHAO Aozhu, LI Fei. Robust watermarking scheme for encrypted images based on scrambling and kronecker compressed sensing[J]. IEEE signal processing letters, 2022, 29: 484−488. doi: 10.1109/LSP.2022.3143038
[3]	吴嘉奕, 李晓萌, 秦川. 面向屏幕拍摄的端到端鲁棒图像水印算法[J]. 中国图象图形学报, 2023, 28(12): 3713−3730. doi: 10.11834/jig.221141 WU Jiayi, LI Xiaomeng, QIN Chuan. Screen-shooting robust watermarking with end-to-end neural network[J]. Journal of image and graphics, 2023, 28(12): 3713−3730. doi: 10.11834/jig.221141
[4]	VAN SCHYNDEL R G, TIRKEL A Z, OSBORNE C F. A digital watermark[C]//Proceedings of 1st International Conference on Image Processing. Austin: IEEE, 2002: 86−90.
[5]	DAS U K, SAMADDAR S G, KESERWANI P K. Digital forensic enabled image authentication using least significant bit (LSB) with tamper localization based hash function[C]//Intelligent Communication and Computational Technologies. Singapore: Springer, 2018: 141−155.
[6]	HOLUB V, FRIDRICH J. Designing steganographic distortion using directional filters[C]//2012 IEEE International Workshop on Information Forensics and Security. Tenerife: IEEE, 2013: 234−239.
[7]	KO H J, HUANG Chengta, HORNG G, et al. Robust and blind image watermarking in DCT domain using inter-block coefficient correlation[J]. Information sciences: an international journal, 2020, 517(C): 128−147. doi: 10.1016/j.aeue.2013.08.018
[8]	LU Jianfeng, WANG Meng, DAI Junping, et al. Multiple watermark scheme based on DWT-DCT quantization for medical images[J]. J inf hiding multim signal process, 2015, 6: 458−472.
[9]	WANG Chunxing, LI Shang, LIU Yan, et al. Cross-scale feature fusion-based JND estimation for robust image watermarking in quaternion DWT domain[J]. Optik, 2023, 272: 170371. doi: 10.1016/j.ijleo.2022.170371
[10]	LIU Ruizhen, TAN Tieniu. An SVD-based watermarking scheme for protecting rightful ownership[J]. IEEE transactions on multimedia, 2002, 4(1): 121−128. doi: 10.1109/6046.985560
[11]	沈艳冰, 杨阳, 李竹. 一种适用于QR码的彩色图像数字水印算法[J]. 智能系统学报, 2020, 15(5): 949−955. doi: 10.11992/tis.201903016 SHEN Yanbing, YANG Yang, LI Zhu. Digital watermarking algorithm for color images on QR codes[J]. CAAI transactions on intelligent systems, 2020, 15(5): 949−955. doi: 10.11992/tis.201903016
[12]	ZHU Jiren, KAPLAN R, JOHNSON J, et al. Hidden: hiding data with deep networks[C]//Proceedings of the European conference on computer vision. Cham: Springer, 2018: 657−672.
[13]	ZHANG Honglei, WANG Hu, CAO Yuanzhouhan, et al. Robust data hiding using inverse gradient attention[EB/OL]. (2020−11−21)[2025−07−16]. https://arxiv.org/abs/2011.10850.
[14]	JIA Zhaoyang, FANG Han, ZHANG Weiming. MBRS: enhancing robustness of DNN-based watermarking by mini-batch of real and simulated JPEG compression[C]//Proceedings of the 29th ACM International Conference on Multimedia. New York: ACM, 2021: 41−49.
[15]	TANCIK M, MILDENHALL B, NG R. StegaStamp: invisible hyperlinks in physical photographs[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 2114−2123.
[16]	HUANG Jiangtao, LUO Ting, LI Li, et al. ARWGAN: attention-guided robust image watermarking model based on GAN[J]. IEEE transactions on instrumentation and measurement, 2023, 72: 5018417. doi: 10.1109/tim.2023.3285981
[17]	KOU Feifei, YAO Yuhan, HAN Jideng, et al. DualFocus GAN for robust watermarking in transportation cyber-physical systems[J]. IEEE transactions on intelligent transportation systems, 2025, 26(9): 14371−14382. doi: 10.1109/TITS.2025.3550120
[18]	FERNANDEZ P, SABLAYROLLES A, FURON T, et al. Watermarking images in self-supervised latent spaces[C]//2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Singapore: IEEE, 2022: 3054−3058.
[19]	ZHAO Yunqing, PANG Tianyu, DU Chao, et al. A recipe for watermarking diffusion models[EB/OL]. (2023−03−17)[2025−07−16]. https://arxiv.org/abs/2303.10137.
[20]	AFIFI M, DERPANIS K G, OMMER B, et al. Learning multi-scale photo exposure correction[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 9153−9163.
[21]	CAI Yuanhao, HU Xiaowan, WANG Haoqian, et al. Learning to generate realistic noisy images via pixel-level noise-aware adversarial training[EB/OL]. (2022−04−06)[2025−07−16]. https://arxiv.org/abs/2204.02844.
[22]	WANG Baowei, SONG Ziwei, WU Yufeng. Robust blind watermarking framework for hybrid networks combining CNN and Transformer[C]//Asian Conference on Machine Learning. Hanoi: PMLR, 2024: 1417−1432.
[23]	ZHU Liuhao, FANG Yixiang, ZHAO Yi, et al. Lite localization network and DUE-based watermarking for color image copyright protection[J]. IEEE transactions on circuits and systems for video technology, 2024, 34(10): 9311−9325. doi: 10.1109/TCSVT.2024.3395304
[24]	YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[EB/OL]. (2015−11−23)[2025−07−16]. https://arxiv.org/abs/1511.07122.
[25]	CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 40(4): 834−848. doi: 10.1109/TPAMI.2017.2699184
[26]	COX I. Digital watermarking[J]. Journal of electronic imaging, 2002, 11(3): 414. doi: 10.4018/9781591405184.ch001
[27]	LAI C C, TSAI C C. Digital image watermarking using discrete wavelet transform and singular value decomposition[J]. IEEE transactions on instrumentation and measurement, 2010, 59(11): 3060−3063. doi: 10.1109/TIM.2010.2066770
[28]	MA Rui, GUO Mengxi, HOU Yi, et al. Towards blind watermarking: combining invertible and non-invertible mechanisms[C]//Proceedings of the 30th ACM International Conference on Multimedia. New York: ACM, 2022: 1532−1542.
[29]	ARAB M A, GHORBANPOUR A, HEFEEDA M. FlexMark: adaptive watermarking method for images[C]//Proceedings of the ACM Multimedia Systems Conference 2024 on ZZZ. New York: ACM, 2024: 56−66.
[30]	JADERBERG M, SIMONYAN K, ZISSERMAN A. Spatial Transformer networks[EB/OL]. (2015−06−05)[2025−07−16]. https://arxiv.org/abs/1506.02025.
[31]	ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 586−595.
[32]	LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//Computer Vision – ECCV 2014. Cham: Springer International Publishing, 2014: 740−755.
[33]	AGUSTSSON E, TIMOFTE R. NTIRE 2017 challenge on single image super-resolution: dataset and study[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017: 1122−1131.
[34]	TAN Weiren, CHAN C S, AGUIRRE H E, et al. Improved ArtGAN for conditional synthesis of natural image and artwork[J]. IEEE transactions on image processing, 2019, 28(1): 394−409. doi: 10.1109/TIP.2018.2866698
[35]	FANG Han, JIA Zhaoyang, QIU Yupeng, et al. De-END: decoder-driven watermarking network[J]. IEEE transactions on multimedia, 2023, 25: 7571−7581. doi: 10.1109/TMM.2022.3223559

点击查看大图

图(4) / 表(6)

摘要

一种金字塔增强的抗噪水印方法：面向鲁棒高质量的图像保护

doi: 10.11992/tis.202507022

通讯作者: 寇菲菲. E-mail：koufeifei000@bupt.edu.cn.

出版历程

Pyramid-enhanced noise-resilient watermarking for robust and high-quality image protection

1. 所提方法

1.1 水印嵌入

1.1.1 水印扩散模块

1.1.2 金字塔增强嵌入模块

1.1.3 编码器

1.2 噪声层

1.3 水印提取

1.3.1 解码质量增强模块

1.3.2 解码器

1.4 网络训练

1.4.1 水印嵌入

1.4.2 水印提取

2. 实验结果

2.1 基础设置

2.1.1 评价指标

2.1.2 实现细节

2.1.3 数据集

2.2 与基线模型的性能比较

2.2.1 基线模型

2.2.2 视觉质量

2.2.3 鲁棒性

2.3 消融研究

2.4 计算消耗对比

3. 结束语

出版历程

目录

通讯作者:
寇菲菲. E-mail：koufeifei000@bupt.edu.cn.