AI 水印 101:工具与技术
近几个月,我们看到了多起涉及“深度伪造”(deepfakes)或 AI 生成内容的新闻事件:从 泰勒·斯威夫特的图像 到 汤姆·汉克斯的视频 和 美国总统乔·拜登的录音。无论是用于销售产品、未经同意篡改他人图像、支持网络钓鱼以获取私人信息,还是制造旨在误导选民的虚假信息材料,“深度伪造”内容正越来越多地在社交媒体平台上传播。这使得它们能够迅速扩散,产生更广泛的影响,从而可能造成长期的损害。
在这篇博文中,我们将介绍为 AI 生成内容添加水印的方法,讨论它们的优缺点,并展示 Hugging Face Hub 上可用于添加/检测水印的一些工具。
什么是水印?其工作原理是什么?

水印是一种为内容添加标记以传达额外信息(如真实性)的方法。AI 生成内容中的水印可以是从完全可见(图 1)到不可见(图 2)的。在 AI 领域,水印技术特指在数字内容(如图像)中添加特定模式,以传达有关内容来源的信息;这些模式可以被人眼或算法识别。

为 AI 生成内容添加水印主要有两种方法:第一种是在内容创建过程中进行,这需要访问模型本身,但由于它是作为生成过程的一部分自动嵌入的,因此可以更加稳健。第二种方法是在内容生成后实施,这种方法甚至可以应用于来自闭源和专有模型的内容,但其缺点是可能不适用于所有类型的内容(例如文本)。
数据投毒和签名技术
除了水印技术,一些相关技术在限制未经同意的图像篡改方面也发挥着作用。一些技术会以不可感知的方式修改您在网上分享的图片,使得 AI 算法无法很好地处理它们。尽管人类可以正常看到这些图片,AI 算法却无法获取可比较的内容,因此也就无法创建新的图像。能够以不可感知的方式修改图像的工具包括 Glaze 和 Photoguard。其他工具则通过“投毒”图像,破坏 AI 算法训练中固有的假设,使 AI 系统无法根据网上分享的图片学习人们的长相——这增加了这些系统生成人物假图像的难度。这些工具包括 Nightshade 和 Fawkes。
通过使用“签名”技术,将内容与其来源的元数据相关联,也可以维护内容的真实性和可靠性,例如 Truepic 的工作,它遵循 C2PA 标准嵌入元数据。图像签名有助于了解图像的来源。虽然元数据可以被编辑,但像 Truepic 这样的系统通过以下方式解决了这个限制:1) 提供认证以确保元数据的有效性可以被验证;2) 与水印技术结合,使其更难移除信息。
开放与闭源水印
向公众提供不同级别的加水印工具和检测器访问权限各有利弊。开放有助于激发创新,因为开发者可以迭代关键思想,创造出越来越好的系统。然而,这必须与恶意使用相平衡。在调用加水印工具的 AI 管道中使用开源代码,移除加水印步骤变得轻而易举。即使管道的这部分是闭源的,如果水印是已知的且加水印代码是开源的,恶意行为者也可能通过阅读代码来找出如何编辑生成内容,从而使水印失效。如果检测器也可访问,就有可能持续编辑合成内容,直到检测器返回低置信度,从而抵消水印提供的作用。有一些混合的开放-闭源方法可以直接解决这些问题。例如,Truepic 的加水印代码是闭源的,但他们提供了一个可以验证内容凭证的公共 JavaScript 库。在生成过程中调用加水印工具的 IMATAG 代码是开源的,但实际的加水印工具和检测器是私有的。
为不同类型的数据添加水印
尽管水印在各种模态(音频、图像、文本等)中都是一个重要的工具,但每种模态都带来了独特的挑战和考虑因素。水印的意图也同样如此:无论是为了防止使用训练数据来训练模型,保护内容不被篡改,标记模型的输出,还是检测 AI 生成的数据。在当前部分,我们将探讨不同模态的数据,它们为水印带来的挑战,以及 Hugging Face Hub 上存在的用于执行不同类型水印的开源工具。
图像水印
可能最为人所知的水印类型(无论是人类创作还是 AI 生成的内容)是在图像上进行的。已经提出了不同的方法来标记训练数据,以影响基于这些数据训练的模型的输出:这种“图像隐身”方法中最著名的是 “Nightshade”,它对图像进行微小的、人眼无法察觉的改变,但会影响基于被投毒数据训练的模型的质量。Hub 上有类似的图像隐身工具 - 例如,由开发 Nightshade 的同一实验室开发的 Fawkes,专门针对人物图像,旨在挫败面部识别系统。类似地,还有 Photoguard,它旨在保护图像免受生成式 AI 工具的篡改,例如用于基于这些图像创建深度伪造品。
在为输出图像加水印方面,Hub 上有两种互补的方法:IMATAG(见图 2),它在内容生成过程中通过利用 Stable Diffusion XL Turbo 等流行模型的修改版本来进行水印处理;以及 Truepic,它在图像生成后添加不可见的内容凭证。
TruePic 还在图像中嵌入 C2PA 内容凭证,这使得关于图像来源和生成的元数据能够存储在图像本身中。IMATAG 和 TruePic Spaces 都允许检测由其系统加水印的图像。这两种检测工具都与其各自的方法配合工作(即它们是方法特定的)。Hub 上有一个现有的通用深度伪造图像检测 Space,但根据我们的经验,我们发现这些解决方案的性能因图像质量和所用模型的不同而有所差异。
文本水印
虽然为 AI 生成的图像添加水印似乎更直观——鉴于这类内容的强烈视觉性——但文本则是完全不同的故事……如何为书面文字和数字(tokens)添加水印?嗯,当前的水印方法依赖于根据前文推广子词汇表。让我们深入了解一下这对 LLM 生成的文本会是什么样子。
在生成过程中,LLM 在进行采样或贪婪解码之前会为下一个词元输出一个 logits 列表。根据之前生成的文本,大多数方法会将所有候选词元分成两组——称之为“红”组和“绿”组。“红”组的词元将受到限制,“绿”组将得到推广。这可以通过完全禁止红组词元(硬水印),或增加绿组的概率(软水印)来实现。我们对原始概率的改变越大,我们的水印强度就越高。WaterBench 创建了一个基准数据集,以便在控制水印强度进行同类比较的情况下,方便地比较不同水印算法的性能。
检测的工作原理是确定每个词元的“颜色”,然后计算输入文本来自相关模型的概率。值得注意的是,较短的文本置信度要低得多,因为可供检查的词元较少。

在 Hugging Face Hub 上,您有几种方法可以轻松地为 LLM 实现水印功能。LLM 水印 Space(见图 3)演示了这一点,它在 OPT 和 Flan-T5 等模型上使用了 LLM 水印方法。对于生产级工作负载,您可以使用我们的 文本生成推理工具包,它实现了相同的水印算法并设置了相应的参数,可以与任何最新模型一起使用!
与 AI 生成图像的通用水印类似,为文本进行通用水印是否可行尚待证明。像 GLTR 这样的方法旨在对任何可访问的语言模型都具有鲁棒性(因为它们依赖于将生成文本的 logits 与不同模型的 logits 进行比较)。在无法访问某个语言模型的情况下(因为它可能是闭源的,或者你不知道是用哪个模型生成的文本),目前无法检测给定文本是否由该模型生成。
正如我们上面讨论的,生成文本的检测方法需要大量的文本才能可靠。即便如此,检测器也可能有很高的假阳性率,错误地将人类写的文本标记为合成的。事实上,OpenAI 在 2023 年因准确率低而移除了其内部检测工具,当教师用它来判断学生提交的作业是否由 ChatGPT 生成时,这带来了意想不到的后果。
音频水印
从一个人声音中提取的数据(声纹)常被用作生物安全认证机制来识别个人。虽然通常与 PIN 码或密码等其他安全因素配合使用,但这种生物特征数据的泄露仍然存在风险,并可能被用于访问例如银行账户,因为许多银行使用语音识别技术通过电话验证客户。随着语音复制技术通过 AI 变得越来越容易,我们必须改进验证语音音频真实性的技术。为音频内容添加水印与为图像添加水印类似,因为存在一个多维输出空间,可用于注入有关来源的元数据。在音频的情况下,水印通常是在人耳听不见的频率(低于约 20 赫兹或高于约 20,000 赫兹)上进行的,然后可以通过 AI 驱动的方法进行检测。
鉴于音频输出的高风险性,音频内容加水印是一个活跃的研究领域,过去几年已提出了多种方法(例如,WaveFuzz,Venomave)。
AudioSeal 是一种用于语音局部水印的方法,具有最先进的检测器速度,同时不影响水印的鲁棒性。它联合训练一个在音频中嵌入水印的生成器,以及一个即使在存在编辑的情况下也能在较长音频中检测到水印片段的检测器。AudioSeal 在样本级别(1/16k 秒分辨率)实现了对自然语音和合成语音的最先进检测性能,它对信号质量的改变有限,并且对多种类型的音频编辑具有鲁棒性。

AudioSeal 也被用于发布带有安全机制的 SeamlessExpressive 和 SeamlessStreaming 演示。
结论
虚假信息、真实内容被指控为合成内容,以及未经同意不当呈现他人形象的事件,处理起来既困难又耗时;在纠正和澄清之前,大部分损害已经造成。因此,作为我们普及优秀机器学习使命的一部分,Hugging Face 认为,拥有快速、系统地识别 AI 生成内容的机制至关重要。AI 水印并非万无一失,但在对抗恶意和误导性使用 AI 的斗争中,它可以成为一个强大的工具。
相关新闻报道
- 不仅仅是泰勒·斯威夫特:如何防范 AI 深度伪造和性骚扰 | PopSugar (@meg)
- 三种对抗深度伪造色情内容的方法 | 麻省理工科技评论 (@sasha)
- 枪支暴力夺走了他们的生命。现在,他们的声音将通过 AI 游说国会采取更多行动 | NPR (@irenesolaiman)
- 谷歌 DeepMind 推出 AI 生成图像水印工具 | 麻省理工科技评论 (@sasha)
- 隐形 AI 水印无法阻止恶意行为者,但对善意用户而言意义重大 | VentureBeat (@meg)
- 聊天机器人水印可识别 AI 编写的文本 | 麻省理工科技评论 (@irenesolaiman)
- Hugging Face 赋能用户使用深度伪造检测工具 | Mashable (@meg)