评估生成式AI的社会和伦理风险

引入基于上下文的综合评估框架

生成式AI系统已被用于撰写书籍、创作平面设计、辅助医疗实践,并且能力日益增强。要确保这些系统负责任地开发和部署,需要仔细评估它们可能带来的潜在伦理和社会风险。

在我们的新论文中,我们提出了一个三层框架来评估AI系统的社会和伦理风险。该框架包括对AI系统能力、人机交互和系统影响的评估。

我们还绘制了安全评估的现状图,发现了三个主要差距:上下文、特定风险和多模态。为了帮助缩小这些差距,我们呼吁重新利用现有的生成式AI评估方法,并实施全面的评估方法,正如我们在错误信息案例研究中所做的那样。这种方法整合了诸如AI系统提供事实错误信息的可能性等发现,以及关于人们如何使用该系统以及在什么背景下使用的见解。多层评估可以得出超越模型能力的结论,并表明伤害——在这种情况下是错误信息——是否实际发生和传播。

要使任何技术按预期工作,必须解决社会和技术挑战。因此,为了更好地评估AI系统的安全性,必须考虑这些不同的上下文层面。在此,我们基于早期识别大规模语言模型潜在风险(如隐私泄露、工作自动化、错误信息等)的研究,并引入了一种全面评估这些风险向前发展的方法。

上下文对于评估AI风险至关重要

AI系统的能力是可能出现更广泛风险类型的重要指标。例如,更可能产生事实不准确或误导性输出的AI系统可能更容易产生错误信息的风险,导致诸如缺乏公众信任等问题。

衡量这些能力是AI安全评估的核心,但仅凭这些评估不能确保AI系统的安全。下游危害是否显现——例如,人们是否基于不准确的模型输出而持有错误信念——取决于上下文。更具体地说,谁使用AI系统以及目标是什么?AI系统是否按预期运行?它是否产生意外的外部效应?所有这些问题都构成了对AI系统安全性的整体评估。

除了能力评估之外,我们提出的评估还可以评估下游风险显现的两个额外点:使用点的人机交互,以及AI系统嵌入更广泛系统并广泛部署时的系统影响。跨这些层面对给定伤害风险进行整合评估,可以全面评估AI系统的安全性。

人机交互评估以使用AI系统的人员体验为中心。人们如何使用AI系统?系统在使用点是否按预期执行?不同人口统计特征和用户群体之间的体验有何不同?我们能否观察到使用该技术或接触其输出时产生的意外副作用?

系统影响评估侧重于AI系统嵌入的更广泛结构,如社会机构、劳动力市场和自然环境。该层面的评估可以揭示只有在AI系统被大规模采用后才会显现的伤害风险。

安全评估是共同责任

AI开发者需要确保其技术负责任地开发和发布。公共行为者,如政府, tasked with upholding public safety。随着生成式AI系统日益广泛使用和部署,确保其安全是多个行为者之间的共同责任:

  • AI开发者处于有利位置来审视他们生产的系统的能力。
  • 应用开发者和指定的公共机构 positioned to assess the functionality of different features and applications, and possible externalities to different user groups。
  • 更广泛的公共利益相关者 uniquely positioned to forecast and assess societal, economic, and environmental implications of novel technologies, such as generative AI。

我们提出的框架中的三层评估是一个程度问题,而不是 neatly divided。虽然它们都不是 entirely the responsibility of a single actor,但主要责任取决于谁最适合在每个层面执行评估。

当前生成式多模态AI安全评估的差距

考虑到这种额外上下文对于评估AI系统安全性的重要性,了解此类测试的可用性很重要。为了更好地了解更广泛的情况,我们进行了广泛努力,尽可能全面地整理已应用于生成式AI系统的评估。

通过绘制生成式AI安全评估的现状图,我们发现了三个主要的安全评估差距:

  • 上下文:大多数安全评估孤立地考虑生成式AI系统能力。相对较少的工作用于评估人机交互点或系统影响的潜在风险。
  • 风险特定评估:生成式AI系统的能力评估在覆盖的风险领域方面有限。对于许多风险领域,存在很少的评估。在存在评估的地方,评估通常以狭窄的方式操作化伤害。例如,代表性伤害通常被定义为职业与不同性别的刻板关联,使得其他伤害实例和风险领域未被检测到。
  • 多模态:绝大多数现有的生成式AI系统安全评估仅关注文本输出——对于评估图像、音频或视频模态中的伤害风险仍然存在巨大差距。随着单个模型中引入多种模态,如可以接受图像作为输入或产生交织音频、文本和视频输出的AI系统,这一差距 only widening。虽然一些基于文本的评估可以应用于其他模态,但新模态引入了风险显现的新方式。例如,对动物的描述是无害的,但如果该描述应用于一个人的图像,则是有害的。

我们通过此存储库公开提供详细说明生成式AI系统安全评估的出版物链接列表。如果您想贡献,请通过填写此表格添加评估。

将更全面的评估付诸实践

生成式AI系统正在推动一波新的应用和创新浪潮。为了确保这些系统的潜在风险得到理解和缓解,我们 urgently need rigorous and comprehensive evaluations of AI system safety that take into account how these systems may be used and embedded in society。

一个实际的第一步是重新利用现有评估并利用大型模型本身进行评估——尽管这有重要的局限性。为了进行更全面的评估,我们还需要开发方法来评估人机交互点及其系统影响的AI系统。例如,虽然通过生成式AI传播错误信息是一个新问题,但我们表明有许多评估公众信任和可信度的现有方法可以重新利用。

确保广泛使用的生成式AI系统的安全是共同责任和优先事项。AI开发者、公共行为者和其他各方必须合作,共同为安全的AI系统建立一个繁荣和稳健的评估生态系统。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐