ICLR 2025 首届水印研讨会亮点回顾

社区文章 发布于2025年5月14日

WMARK Banner

今年,我们组织了**ICLR 2025首届水印研讨会**。研讨会收到了**61份投稿,并接受了51篇论文**,反响远超预期——特别是考虑到两年前提交给ICLR的水印论文还不到10篇。本次研讨会汇集了一个快速增长的研究、工业和政策领域的社区,并受到各学科与会者的广泛好评。

大多数论文集中于**文本和大型语言模型(LLM)水印**,探讨了生成时方法、检测和鲁棒性。图像水印,特别是在扩散模型中的应用,构成了第二大研究组,随后是**音频和视频水印**领域,尽管规模较小但兴趣日益增长。这种主题的分布表明,水印已从一个利基问题转变为**生成式AI的核心关注点**,具有明确的技术、伦理和政策影响。

本次研讨会还得到了业界的大力支持,包括**Meta、Adobe、Kensho Technologies、DeepMark**和**Ingonyama**的贡献,这突显了水印作为更广泛内容真实性生态系统一部分的投资不断增加。

Workshop snapshot

📈 研究趋势

鲁棒性与不可感知性——一个核心且明确的挑战

本次研讨会的一个明确主导主题是**鲁棒性与不可感知性**之间的权衡,这可以说是生成式AI水印领域最活跃和最容易接触的领域。近**一半的投稿**都提到了鲁棒性、攻击或相关防御。“基于LLM复述器的鲁棒多比特文本水印”开发了一种隐蔽且具弹性的文本水印,利用基于LLM的复述对,在抵御扰动的同时实现了极高的检测性能。其他研究如“优化针对语言模型内容水印的自适应攻击”、针对图像的“视觉保真度与鲁棒性:权衡分析……”和针对语音的“深度音频水印是浅层的”,明确测试并衡量了水印在攻击下的弹性极限。检测防御和鲁棒性缓解措施也显著出现,例如“发现语言模型水印上的欺骗尝试”“使用纠错码给语言模型加水印”

🟦 这个方向因其可衡量、可基准测试和实用性而脱颖而出,成为本次研讨会探讨最深入的主题。

image/png

趋势1:🌐 公开部署、在线信任和规模化透明度

本次研讨会的一个关键主题是在实际环境中部署水印系统,以支持规模化透明度。Meta的论文分享了在其平台实施C2PA等元数据标准的实践经验,强调了元数据脆弱性和用户期望不断变化等实际挑战。一篇分类学论文对此进行了补充,将水印策略分为事后、模型外和模型内,有助于根据技术和政策限制指导部署决策。在音频领域,Meta的另一项工作讨论了在短视频上部署音频水印的实际挑战,平衡了高容量、面向用户的环境中的可听性和可检测性。最后,一项关于水印共存的研究解决了日益增长的运营问题:需要多种水印方案稳健地协同工作。总的来说,这些工作强调水印正在从实验室原型向可扩展的产品级基础设施迈进。

趋势2:新兴方向——🔐 加密学、NeRF、数据集归属和知识蒸馏防御

本次研讨会的一个显著趋势是将水印研究扩展到技术上新颖且影响深远的方向。有几篇论文探讨了**密码学基础**,以实现可证明和安全的水印。“可证明的水印提取”引入了zkDL++,这是一个使用零知识证明来提取水印而无需透露提取器内部信息的框架,从而保护了隐私和鲁棒性。同样,“走向扩散模型语义水印的正确加密学使用”阐明了密码学原语在语义水印中的作用,为现有方案提供了安全且形式上可靠的替代方案。另一个方向是**3D渲染中的水印**,“MultiNeRF”提出了一种在神经辐射场(NeRF)中嵌入多个密钥水印的方法,为3D内容提供了可扩展的归属。水印也被证明对**数据集归属**很有用:“通过水印检测基准污染”提出使用LLM重新表述基准以检测它们是否在训练期间使用,从而有助于评估流程的透明度。同样,“WINTER SOLDIER”引入了一种在LLM预训练期间的间接投毒策略,以嵌入隐蔽、鲁棒的数据水印。最后,“LLM水印能有效防止未经授权的知识蒸馏吗?”调查了水印信号是否在通过知识蒸馏从带有水印的教师模型训练的学生模型中幸存下来——这突出了水印去除的漏洞和防御机制。

🎤 ICLR 2025水印研讨会特邀讲者亮点

image/png

  • Scott Aaronson (德克萨斯大学奥斯汀分校 / OpenAI) 展示了他与OpenAI合作开发的用于大型语言模型(LLM)的统计水印技术。该方法巧妙地调整了token的选择,以嵌入归属信号,同时不影响文本质量,旨在防止LLM生成的内容被重新吸收到训练数据中——他将这个循环比作“狗追自己的尾巴”。尽管该方法效率很高,但他提到OpenAI当时并未部署它,原因是对输出质量、公开可检测性和对抗性移除的脆弱性存在担忧。Aaronson还提出了重要的开放性问题,包括**谁应该控制检测工具**,并呼吁对**语义水印**和更广泛的生态系统协调进行更多研究。

  • Furong Huang (马里兰大学): 分享了WAVES NeurIPS图像水印竞赛的结果。**顶尖团队能够移除高达96%的水印**,这突显了水印在攻击下的严重脆弱性。而双重水印则是一个强有力的缓解措施。

  • Melissa Omino (CIPIT): 为水印讨论带来了急需的非洲视角,强调了当前知识产权法如何往往不符合AI生成内容的实际情况——尤其是在知识共享而非个人所有的文化中。她倡导一种**特别法(sui generis)方法**,即为AI专门构建的定制法律框架——该框架侧重于来源、安全和问责制,而非传统的所有权。Melissa引用了尼日利亚、肯尼亚、埃及和南非的例子,强调需要与有限基础设施协同工作并保护本土知识的当地解决方案。她指出了全球标准中的关键空白,并呼吁加强区域协调、提供开源工具并支持非洲主导的研究。她的信息很明确:非洲不应仅仅适应水印框架——它应该帮助塑造它们。

  • John Collomosse (Adobe / C2PA): 的演讲重点是水印在更广泛的AI内容来源生态系统中的作用,特别是通过C2PA(内容来源和真实性联盟)倡议的角度。他强调,水印不应被视为解决虚假信息或操纵的“一刀切”解决方案,而应作为众多工具之一——最好应用于特定用例。其中一个用例是AI来源:验证内容的来源、生成方式以及是否被更改。与试图识别图像是否被篡改的操纵检测不同,来源是关于追溯内容的来源和历史。正如Collomosse所指出的,大多数被操纵的内容并非虚假信息,而大多数虚假信息在技术上并未被操纵——它通常是归属错误或脱离上下文。C2PA标准旨在通过在数字文件中嵌入防篡改元数据来解决这个问题,详细说明作者身份和编辑历史。然而,由于元数据很容易被剥离,水印在恢复或增强来源信息方面发挥着关键作用。在此了解更多关于该倡议的信息:https://c2pa.org

  • Mauro Barni (锡耶纳大学) 对水印在过去30年中的演变进行了反思性概述,从20世纪90年代的DRM根源到GenAI时代的近期复兴。尽管该领域在2005-2010年左右达到了显著进展的顶峰,但Barni指出,此后进展放缓,导致核心挑战——如安全性、评估和密钥管理——仍未解决。
    为了指导下一阶段的研究,他分享了一套明确的经验教训:

    • 重新审视**鲁棒性、不可见性和容量**之间的权衡;*定义**强健、现实的威胁模型**
    • 使用**统计学上可靠的评估指标**
    • 将水印视为**安全问题**,并关注密钥保密性
    • 避免**临时指标**,以及将鲁棒性与真正的安全性混为一谈

👥 小组讨论:水印与政策

本次研讨会的一个亮点是关于**“政策中的水印”**的小组讨论,汇集了来自生态系统各方的声音。小组成员包括**John Collomosse**(Adobe / C2PA)、**Wan-Sie Lee**(IMDA 新加坡 / 新加坡人工智能安全研究所)、**Adina Yakefu**(Hugging Face,中国开源社区)和**Zohaib Ahmed**(Resemble AI首席执行官)。他们共同探讨了围绕水印的政策准备度、法律影响和实际部署等紧迫问题。

讨论强调了水印如何从研究重点发展成为政策相关工具。**尽管小组成员一致认为该技术正在成熟**,但他们强调需要易用、可互操作且考虑到实际限制的解决方案。此次对话强化了水印是必要的——但必须以灵活性、问责制和对更广泛社会影响的认识来应用。

主要亮点

  • **水印技术在面向公众的应用中正迅速成熟**,尤其是在用于验证官方内容方面,正如新加坡的选举保障措施(Wan-Sie Lee)所示。部署仍然面临可用性和访问挑战,特别是在面向用户的环境中。
  • **政策框架应侧重于特定、明确的用例**,如AI来源,而不是推行僵化、一刀切的技术标准。
  • **公共和私人检测系统都是必需的**,没有万能的解决方案,根据应用的敏感性和风险,可以有多种水印共存。
  • **隐私必须始终是优先事项**——正如中国最近的立法所示,水印绝不应嵌入个人数据。
  • **狭窄、用例驱动的部署是**与公众建立信誉和信任的**关键**。
  • **初创企业在水印领域拥有巨大的创新机会**,并可以为AI安全构建基础设施。

image/png

总结

ICLR 2025 的 WMARK 研讨会展示了水印技术发展之快——从AI安全讨论的一个次要话题,转变为生成式AI的核心话题。本次研讨会汇集了学术洞见、真实世界部署经验和新兴政策讨论,反映了该领域日益增长的深度和相关性。从LLM和扩散模型到密码学、NeRF和数据归属,贡献范围广泛且具有前瞻性。凭借研究、工业和政策领域的积极参与,我们很高兴能继续建设这个社区。我们期待着将**下一届 WMARK 研讨会带到 2026 年在巴西举行的 ICLR**。

反馈

如果您参加了研讨会并希望提供反馈,请填写此反馈表

社区

注册登录以评论