“EditGuard: Versatile Image Watermarking for Tamper Localization and Copyright Protection”
随着近年来AIGC技术的蓬勃发展,AI生成作品的版权问题急需一个有效的解决方案。为了解决这一挑战,本文提出了一个创新的主动取证框架EditGuard,以统一版权保护和篡改不可知论的定位,特别是针对基于AIGC的编辑方法。
EditGuard不仅可以实现精细的不可察觉水印嵌入,而且可以实现篡改区域和版权信息的精确解码。利用图像到图像隐写的脆弱性和局域性,可以将EditGuard的实现转换为统一的图像位隐写问题,从而将训练过程与篡改类型完全解耦。大量实验表明,EditGuard在篡改定位精度、版权恢复精度和对各种基于aigc的篡改方法的通用性之间取得了平衡,特别是对于肉眼难以检测的图像篡改。
论文地址:https://arxiv.org/pdf/2312.08883.pdf
Github地址:https://github.com/xuanyuzhang21/EditGuard
摘要
AI生成内容(AIGC)模型可以产生惊人逼真的图像,但未经授权的复制和恶意篡改对版权完整性和信息安全构成了严重威胁。目前的图像水印方法只能保护版权和确保可追溯性,无法有效地定位越来越逼真的图像篡改,可能导致信任危机、隐私侵犯和法律纠纷。为了解决这个挑战,我们提出了一种创新的主动取证框架EditGuard,以统一版权保护和对篡改的定位,特别针对基于AIGC的编辑方法。它可以提供不可察觉的水印嵌入和对篡改区域和版权信息的精确解码。通过利用我们观察到的图像隐写术的脆弱性和局部性,EditGuard的实现可以转化为一个统一的图像位隐写问题,从而完全将训练过程与篡改类型解耦。广泛的实验证明,我们的EditGuard在篡改定位准确性、版权恢复精度和对各种基于AIGC的篡改方法的普适性方面取得了平衡,特别是对于肉眼难以检测的图像伪造。
简介
AI生成的内容模型可以产生逼真和奇妙的图像,但这也带来了版权保护和信息安全方面的挑战。图像处理的效率已经模糊了事实和伪造之间的界限,引发了许多安全和法律问题。艺术作品容易受到恶意篡改或未经授权的AI辅助重制的影响,使得保护原创作品变得困难。同时,伪造的图像可能会在网上传播或用作法庭证据,对公众舆论、伦理问题和社会稳定产生不利影响。
本文提出了一种名为EditGuard的新型前向取证框架,旨在保护版权和定位AIGC编辑方法中的篡改区域。该框架将图像-图像隐写术和位-图像隐写术相结合,使得训练可以完全解耦篡改类型,从而赋予其卓越的通用性和零-shot定位篡改的能力。该框架的两个任务是版权保护和篡改定位,目前没有现有方法可以同时完成这两个任务。
本文主要贡献如下:
- EditGuard是一个多功能主动取证框架,用于定位篡改和保护版权。
- 利用I2I隐写术的脆弱性和局部性,将双重取证任务转化为训练统一的图像位隐写网络(IBSN)。
- 引入基于提示的后验估计模块,提高框架的定位准确性和降解鲁棒性。
- 在构建的数据集和经典基准上验证了我们方法的有效性。与其他竞争方法相比,我们的方法在定位精度、泛化能力和版权准确性方面具有显著优势,无需任何标记数据或额外的特定篡改类型的训练。
相关工作
篡改定位
现有的被动图像取证技术,这些技术主要集中在定位特定类型的篡改上。同时,一些通用的篡改定位方法也倾向于探索篡改图像中的痕迹和异常。然而,这些被动定位方法通常在泛化和定位精度方面存在局限性。虽然MaLP使用模板匹配进行主动篡改定位,但仍需要大量的伪造图像,并且无法完全将网络训练与篡改类型分离。
图像水印
图像水印可以分为对抗性水印和取证水印两种类型。对抗性水印旨在通过向图像中嵌入扰动来混淆生成模型,从而创建异常的对抗性示例。取证水印则用于验证、真实性和图像的可追溯性。先前的方法倾向于使用深度编码器-解码器网络或流模型来隐藏和恢复比特流。最近,研究人员为大规模图像生成模型设计了专门的水印机制,如稳定扩散,以将水印合并到生成过程中。然而,这些水印方法具有单一的功能,不能准确地定位篡改区域。
EditGuard
动机
EditGuard旨在解决现有水印方法无法定位篡改的问题。作者发现图像到图像(I2I)隐写具有明显的脆弱性和局部性,可以作为一种特殊的定位水印嵌入到现有水印框架中。作者通过实验证明,当I2I隐写的容器图像受到显著改变时,隐藏的秘密图像也会受到损坏并产生伪影,这被称为脆弱性。此外,作者还发现,秘密图像中的伪影几乎与容器图像中的变化相对应,这被称为局部性。这些特性启发了作者将秘密图像作为一种特殊的定位水印嵌入到现有水印框架中。
框架设计与取证流程
EditGuard是一个旨在实现统一篡改本地化和版权保护的框架。它通过将2D本地化水印和1D版权可追溯性水印以不可察觉的方式嵌入原始图像中,使解码端能够获取图像的版权和反映篡改区域的二进制掩码。为了解决两种水印的兼容性问题,EditGuard采用了“顺序编码和并行解码”的结构。它包括一个双水印编码器、一个篡改定位器和一个版权提取器。双水印编码器将预定义的本地化水印和用户提供的全局版权水印依次添加到原始图像中,形成容器图像。通过顺序嵌入,可以有效地防止交叉干扰。并行解码过程允许我们在不同的鲁棒性水平下灵活训练每个分支,并通过篡改定位器和版权提取器获得预测的掩码和可追溯性水印。EditGuard的双重取证过程可以归类为以下几种情况。如果提取的版权水印与用户提供的版权水印不匹配,可疑的图像可能未经过EditGuard注册或经历了极其严重的全局篡改,因此不可靠。如果提取的版权水印与用户提供的版权水印匹配,但预测的掩码不为零,可疑的图像经历了篡改,不可作为有效证据。如果提取的版权水印与用户提供的版权水印匹配,并且预测的掩码为零,图像在EditGuard的保护下保持未经篡改和可信任。
将双重取证转化为隐写术
本文提出了一种基于图像和比特加密的双重取证框架,可以实现通用和防篡改的本地化。通过图像隐藏和揭示实现了本地化水印和篡改定位,通过比特加密和恢复实现了版权水印和提取器。训练目标是自我恢复机制,无需引入任何标记数据或篡改样本。在推理过程中,可以通过简单的比较自然地以零样本方式定位篡改并精确提取版权。
联合图像位隐写网络
网络架构
包括图像隐藏模块(IHM)、位加密模块(BEM)、位恢复模块(BRM)和图像揭示模块(IRM)。首先,IHM将一个定位水印Wloc嵌入到原始图像Iori中,生成中间输出Imed。然后,Imed经过BEM进行特征优化,同时版权水印wcop被调制到BEM中,形成最终的容器图像Icon。在网络传输后,BRM将从接收到的容器图像Irec中恢复出版权水印wcop。同时,Irec通过基于提示的后验估计预测缺失信息Z,并将其用作可逆块的初始化,生成估计的原始图像Iori和半脆弱水印Wloc。
使用流模型和离散小波变换来隐藏和揭示图像信息,通过使用增强的加性仿射耦合层,将原始图像和相应的水印进行投影。最后,通过逆离散小波变换将揭示的特征转换回图像域。
基于提示的后验估计
引入了后验估计模块来提高图像隐藏和提取模块的鲁棒性和准确性。该模块可以自适应地学习多种图像降质类型,并通过动态权重系数将其与输入特征相结合,从而实现对多种降质类型的处理。同时,文章还介绍了一种基于残差块和通道注意力机制的网络结构,用于提取局部和非局部特征,以增强图像水印的鲁棒性。
位加密和恢复模块
本文介绍了一种基于U型特征增强网络和多层感知机的版权水印编码和解码方法。在编码端,通过多层感知机将版权水印扩展为L×L的信息特征图,并通过U型特征增强网络提取I med的特征,最后通过融合机制实现位图信息的调制。在解码端,通过U型子网络将I rec下采样至L×L,再通过多层感知机提取版权水印。
通过IBSN构建EditGuard
本文提出了一种基于双层优化策略的图像版权保护方法,包括位加密模块、位恢复模块、水印嵌入模块和水印提取模块。首先通过 ℓ 2 损失训练位加密和恢复模块,然后冻结它们的权重并联合训练水印嵌入和提取模块。损失函数包括原始图像、定位水印和版权水印。
使用一个预训练的图像块相似度网络(IBSN)来检测图像篡改,并通过IBSN的组件构建EditGuard双水印编码器。EditGuard包括一个版权水印和一个定位水印,以及一个用于检测篡改的遮罩提取器。最后,通过比较预定义的定位水印和解码后的水印,可以得到一个二进制遮罩。
实验
实现细节
使用COCO数据集进行训练,无需篡改数据即可进行篡改定位。使用Adam进行训练,使用F1分数、AUC、IoU和位精度等指标评估定位和版权保护性能。该方法可以同时实现篡改定位和图像水印,与其他方法进行了比较。
定位方法比较
EditGuard是一种主动的水印嵌入方法,可以在不需要标记数据或篡改样本的情况下,精确地定位篡改区域。与现有方法相比,EditGuard在四个数据集上的定位准确度都有显著提高,而且可以精确地定位像素级的篡改区域。同时,EditGuard的位准确率保持在99.8%以上,其他方法无法实现有效的版权保护。
水印方法比较
EditGuard可以在图像中隐藏RGB定位水印和1D版权水印,容量远大于其他竞争方法。在COCO数据集上的测试中,EditGuard的保真度超过了SepMark、PIMoG和MBRS,但略逊于CIN。同时,EditGuard在NIQE等感知质量指标方面表现最佳。在恶意篡改方面,EditGuard的表现优于SepMark,与PIMoG和CIN的位准确度非常接近。总体而言,EditGuard的视觉质量和位准确度与当前图像水印方法相当。
基于AIGC的编辑方法扩展
AGE-Set数据集包含两个子数据集。第一个子数据集AGE-Set-C是一个经过批处理的粗糙篡改数据集,包含来自COCO 2017和CelebA的原始图像。第二个子数据集AGESet-F包含100张经过精细编辑的图像。这些图像是通过一些先进的编辑方法进行编辑的,使得篡改和未篡改区域融合得很好,难以被肉眼察觉。
与其他被动取证方法相比,EditGuard的F1分数和AUC均超过95%,并且可以保持约90%的IOU。在实验中,EditGuard可以准确地捕捉由AIGC编辑方法产生的不可感知的篡改痕迹,而其他方法几乎无效。在AGE-Set-F数据集上的实验结果表明,即使面对真实世界的篡改,其他最强大的篡改定位方法也几乎完全失败,而EditGuard仍然可以清晰地注释篡改区域。
鲁棒性分析
在对“ Stable Diffusion Inpaint ”进行鲁棒性分析时,我们发现我们的方法在不同程度的降级下仍然保持着高的定位准确性(F1-score>0.9)和位准确性,而MVSS-Net†在干净条件下的结果相比表现出明显的性能下降。这归因于我们的基于提示的估计可以有效地学习降级表示。
消融分析
本文针对“ Stable Diffusion Inpaint ”的篡改情况,对EditGuard的四个组件进行了消融实验。结果表明,缺少任何一个组件都会影响EditGuard的性能。其中,缺少BO会导致训练无法有效收敛;缺少LFIM和TB会导致IoU下降;缺少PF会导致鲁棒性显著下降。在“ Random Degradations ”情况下,EditGuard的F1/AUC/IoU比缺少PF的情况高出0.035/0.031/0.046,表明PF能够有效支持单个网络在各种降噪情况下进行水印恢复。
总结
EditGuard是一个多功能的水印机制,可以增强图像的可信度。它可以嵌入不可察觉的定位和版权水印,并解码准确的版权信息和篡改区域,使其成为艺术创作和法律取证分析的可靠工具。未来,我们将致力于提高EditGuard的鲁棒性,不仅提供像素级的定位结果,还提供语义级的结果。此外,我们计划进一步扩展EditGuard的应用范围,包括视频、音频和3D场景。我们的努力不仅为AIGC行业提供信息真实性,还确保每个像素都能传递真相,保护每个个体的权益。
评论0