AI生成内容水印的思考

水印AI生成内容有潜力解决生成式AI可能加剧的各种问题——错误信息、身份冒充、版权侵权、网络污染等。然而,这也存在争议,许多研究人员和用户担心质量下降,并质疑水印是否真的有效和有用。在本文中,我想分享一些关于水印效果如何以及它是否真正能帮助我们解决问题的思考。

在过去的两年里,我在会议和演讲中多次被问到对水印AI生成内容的总体看法。这通常伴随着各种具体关切,我喜欢将其归类为三个问题:通过社交媒体在互联网规模上的错误信息、身份冒充和深度伪造,以及版权问题。当然,还有许多其他关切可能不完全符合这三个类别,但我认为这是研究人员和公众都害怕的三个大问题。值得注意的是,这些问题在互联网上已经存在,但许多研究人员认为生成式AI可能使它们显著恶化。

在水印与这些问题的关联中,有两个关键问题需要回答:

  • 水印是否有效?
  • 它能解决上述问题吗?

前者通常询问水印在技术上是否有效,即我们能否成功对生成内容添加水印,并在互联网上意外出现时可靠检测到它。后者则询问,假设水印有效,它是否已经解决了上述任何问题。因此,在本文中,我想分享我对这两个问题的看法。

水印是否有效?

简短回答是肯定的。详细回答是肯定的,但这取决于具体情况——取决于你问的是谁以及你做了哪些假设。

例如,在机器学习安全社区,我们致力于实现完全安全的水印系统。这意味着,具有给定计算和时间预算以及对生成模型特定知识水平(访问权限)的对手无法产生误报或漏报——即在没有水印的地方伪造水印或从有水印的内容中移除水印。当前的水印方法通常在这种意义上并不安全,除非你显著限制对手的知识和预算,并对对手可访问的技术做出假设。例如,一个常见的论点是,给定一段有水印的内容,对手可以简单地使用另一个不产生水印内容的生成式AI重新生成内容,从而移除水印。这是真的。然而,这是一个相当循环的论点。如果我能够访问一个强大的生成式AI,可以重新生成任意内容到足够高的质量,我首先就不需要使用产生水印的专有生成式AI。此外,如果假设攻击者能够访问水印方法/模型本身,水印方法就很难保证安全。

问题在于,我们是否需要完全安全的水印系统才能使其在互联网规模上有用。在我看来,我们不需要,我们只需要使其“足够安全”。这里,“足够安全”我指的是使伪造或移除水印足够困难,以至于互联网上99%以上的用户要么无法做到,要么因为不值得努力而失去兴趣。通常,这转化为使模型(对抗性)足够鲁棒,以处理日常使用情况,如内容后处理或通过有限查询对模型进行的简单攻击。这种安全性和鲁棒性水平通过与要求水印不可见(不降低质量)来平衡。这使得水印系统有用,并且我相信根据这些要求,水印在所有主要模态上都表现得非常好。

它能解决我们的问题吗?

不幸的是,这里没有简短答案。水印有潜力解决我们的问题,但这还不够。

首先要认识到,错误信息、身份冒充或版权等问题并非纯粹技术性问题。这些是涉及AI、伦理、经济、社会、监管等交叉领域的复杂问题。然而,我认为水印可以成为促成潜在解决方案的关键技术。为此,水印必须被广泛采用——跨越行业和开源模型。这还包括水印面临的新技术挑战,如为开源模型添加水印、确保水印在模型之间不“重叠”、保持水印与模型更新和架构变化的一致性,以及更多。除此之外,它也是一个监管和政策问题。类似于C2PA,需要有水印、共享密钥和检测器的标准。

例如,为了解决错误信息,所有主要模型都需要添加水印,社交媒体公司需要检测这些水印并在向用户展示内容之前适当标记内容。对于这个用例,我认为技术已经足够成熟。然而,协调和集成滞后。

对于许多问题,如版权问题,同样重要的是要认识到,这不仅仅是通过水印检测AI生成内容。很多时候,我们需要建立来源,即内容的实际起源。这意味着找出谁在什么时间使用哪个模型创建了它,以及它是如何被共享、处理或修改的。在这一点上,水印变成了一个相当复杂的多类问题,具有许多未知类别。此外,安全性和鲁棒性问题变得更加复杂,因为可以应用多个水印,并且各种攻击是可能的——我们不仅仅关心误报或漏报,而是关心实际将内容归因于正确的模型和用户。

结论

水印有潜力帮助缓解许多因生成式AI而加剧的社会问题,如错误信息、身份冒充和版权相关问题。然而,解决这些问题并非纯粹的技术问题。我相信水印作为一种技术已经足够好地应对这些问题,但行业内在水印方面的协调和合作滞后。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐