大模型理论学习记录(三)

大模型的危害

大模型的危害可能表现在以下方面:性能差异、社会偏见和刻板印象、有害信息、虚假信息、安全和隐私风险、版权和法律保护、环境影响、权力集中等。

eg.
性能差异相关的危害:大型语言模型可以适应执行特定任务。对于特定任务,性能差异意味着模型在某些群体中表现更好,在其他群体中表现更差。例如,自动语音识别(ASR)系统在黑人说话者的识别性能要差于白人说话者(Koenecke等人,2020)。反馈循环可以随着时间的推移放大差异:如果系统对某些用户无法正常工作,他们就不会使用这些系统,并且会生成更少的数据,从而导致未来的系统表现出更大的差异。

社会偏见和刻板印象相关的危害:刻板印象是通过语言构建、获取和传播的,其中的关联是被广泛持有、过度简化并且一般固定的。如果大型语言模型无法理解表明反刻板印象关联的数据,则它们在这些数据上的表现可能会较差。

有害信息和虚假信息的危害:有毒性和假信息(toxicity 和 disinformation)即大型语言模型可能产生攻击性的、有害的内容,或者产生误导性的内容。如仇恨言论、骚扰、色情、暴力、欺诈、假信息和侵犯版权等。在有毒性和假信息的背景下,语言模型可以有两种用途:一是它们可以被用来生成有毒的内容,恶意行为者可以利用它们来扩大自己的信息传播;二是它们可以被用来检测假信息,从而帮助进行内容审核。

量化性能差异/社会偏见

两个例子:

名字偏见

将大模型在SQuAD数据进行训练,然后设计一个新的任务进行测试。

  • 动机:测试模型在涉及人名的文本中的理解和行为方式。
  • 原始任务:SQuAD - Stanford Question Answering Datasets(Rajpurkar等,2016年)
  • 修改后的任务:使用SQuAD数据构建额外的测试例子,将之前的测试答案中的两个名字进行交换。最终测试模型的回答正确性。
  • 指标:翻转表示交换名称会改变模型输出的名称对的百分比。

结果:

  • 模型通常会预测与他们所知名人物相关的名称,符合他们所擅长的领域。
  • 对于不太知名的人,效果会很快减弱。
  • 当交换名称时,模型通常不会改变它们的预测结果。
Model Parameters Original acc. Modified acc. Flips
RoBERTa-base 123M 91.2 49.6 15.7
RoBERTa-large 354M 94.4 82.2 9.8
RoBERTA-large w/RACE 354M 94.4 87.9 7.7

详细的结果可以看原始论文

刻板印象

  • 动机:评估模型在涉及刻板印象的文本中的行为方式
  • 任务:比较模型对具有刻板印象和反刻板印象关联的句子的概率
  • 指标:刻板印象得分是模型偏好刻板印象示例的比例。作者表示,得分为0.5是理想的。

结果:

  • 所有模型都显示出对刻板印象数据的系统偏好。
  • 较大的模型往往具有较高的刻板印象得分。
Model Parameters Stereotype Score
GPT-2 Small 117M 56.4
GPT-2 Medium 345M 58.2
GPT-2 Large 774M 60.0

确定有毒性

  • Perspective API - Jigsaw(Google的一个部门)2017年开发了一项广受欢迎的有关毒性分类的专有服务。是一个机器学习模型,可以为每个输入分配一个介于0和1之间的毒性分数。
    • 问题:
      • 1、它不能捕获标注者的身份或更广泛的语言或社会环境。因此标注的一致性很低。
      • 2、它可能会对某些人群产生偏见,因为身份词的出现与毒性有关,这是因为他们受到的有毒评论过多。
  • RealToxicityPrompts - 2020年,Gehman等人推出了一个数据集,用来评估语言模型生成的毒性。
    • 问题:
      • 1、虽然在实验中提到了自动完成(Autocomplete)功能,但这并不直接与真实应用环境相关联。因此,在理解自动完成的结果时,需要注意这个分离。
      • 2、毒性得分是基于Google的Perspective API,这个API虽然有一定的作用,但也存在一些明显的限制。比如,它的评分并不依赖于上下文,这意味着在一些需要考虑上下文的情况下,它可能无法提供准确的毒性评估。
      • 3、在解读这些结果时,应将其视为对情况的粗略感觉,而不是可以被优化的目标。目标是理解和控制语言模型生成的内容,而不是简单地追求毒性得分的优化。
    • 无提示实验:
      • 两个评估指标:
        • “预期最大毒性”。反映了生成补全中毒性的最大程度,也可以理解为毒性的强度。
        • 毒性大于或等于50%的补全的概率。反映了生成的补全中有多少可能存在毒性,也可以理解为毒性的频率。

减轻毒性

两种主要的缓解策略:一种是基于数据的,另一种是基于解码的。

虚假信息

虚假信息(Disinformation)是有意为之地呈现错误或误导性信息以欺骗某一特定受众,其中存在对抗性质。

相关链接:

学习资料来源

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐