RoBERTa: A Robustly Optimized BERT Pretraining Approach【简单分析】_人工智能

RoBERTa由Facebook AI和华盛顿大学开发，它表明BERT的性能可以通过对其预训练过程的精心优化而显著提高，而非通过架构更改。该方法通过改进动态掩码、批次大小和数据规模等方面，在GLUE基准测试和其他NLP任务上取得了最先进的结果。

语言模型预训练已带来显著的性能提升，但仔细比较不同方法却极具挑战性。训练计算成本高昂，通常在不同规模的私有数据集上进行；此外，正如本文将展示的，超参数的选择对最终结果有显著影响。本文对 BERT 预训练 (Devlin et al., 2019) 进行了一项复制研究，仔细衡量了许多关键超参数和训练数据规模对其影响。我们发现 BERT 在预训练阶段存在显著欠训练，并且能够匹敌或超越此后发布的每个模型。我们最好的模型在 GLUE、RACE 和 SQuAD 上取得了最先进的结果。这些结果突出了此前被忽视的设计选择的重要性，并对近期报告的改进来源提出了疑问。我们发布了模型和代码。

拟分析的问题

所做工作

结论

论文分析

介绍

RoBERTa（稳健优化的 BERT 预训练方法）代表了语言模型预训练方法的一个重大改进。RoBERTa 由 Facebook AI 和华盛顿大学的研究人员开发，表明可以通过仔细优化预训练过程，而不是通过架构更改，来大幅提高 BERT 的性能。

该论文解决了 NLP 研究领域中的一个关键挑战：由于训练数据、计算资源和超参数设置的差异，难以公平地比较不同的预训练方法。通过对 BERT 进行系统的复制研究，作者识别并优化了影响模型性能的关键因素，最终创建了一个模型，该模型在发布时达到或超过了最先进的结果。

背景与动机

在 RoBERTa 之前，像 ELMo、GPT、BERT、XLM 和 XLNet 这样的自监督学习模型已经通过在大量未标记文本上进行预训练，在 NLP 基准测试中显示出令人印象深刻的结果。其中，BERT（来自 Transformers 的双向编码器表示）特别具有影响力，它引入了一个掩码语言建模（MLM）目标，使模型能够学习双向表示。

然而，RoBERTa 的作者假设 BERT“训练不足”，其全部潜力尚未实现。这促使他们进行了复制研究，旨在：

评估各种超参数选择和训练数据特征如何影响 BERT 预训练
开发一种改进的 BERT 模型训练方法
证明 BERT 的掩码语言模型目标仍然与更新的替代方案具有竞争力

鉴于像 XLNet 这样的替代方法的出现，该研究尤为重要，XLNet 声称可以解决 BERT 的一些局限性，但引入了重大的架构更改。

对 BERT 的关键修改

RoBERTa 对 BERT 的预训练方法进行了几项关键修改：

动态掩码：虽然原始 BERT 使用静态掩码（在整个训练周期中应用相同的掩码），但 RoBERTa 实现了动态掩码，其中每次将序列馈送到模型时都会生成掩码模式。这确保了模型看到同一序列的不同掩码，从而增加了训练多样性。
删除下一句预测（NSP）：原始 BERT 使用两个目标：掩码语言建模（MLM）和下一句预测（NSP）。RoBERTa 在实验表明 NSP 目标要么没有影响，要么略微降低性能后，消除了 NSP 目标。
更大的批次大小：与 BERT 的 256 相比，RoBERTa 使用明显更大的批次大小（最多 8K 个示例），这提高了优化稳定性，并允许更好地利用现代硬件。
字节级 BPE：RoBERTa 使用具有 50K 个子词单元的字节级 BPE 词汇表，而不是字符级 BPE，这允许模型处理任何输入文本，而不会引入“未知”标记。
更多的训练数据：RoBERTa 在大量数据上进行训练，包括 CC-NEWS（作者收集的新数据集），以及 BookCorpus、Wikipedia、Stories 和 CommonCrawl 数据。

训练方法

作者在 FAIRSEQ 框架中重新实现了 BERT，以系统地探索不同的训练配置。他们测试了各种输入格式和文档连接策略：

SEGMENT-PAIR+NSP: 原始 BERT 方法，使用来自相同或不同文档的片段对和 NSP 目标。
SENTENCE-PAIR+NSP: 类似于上面，但使用单个句子而不是更长的片段。
FULL-SENTENCES: 将来自一个或多个文档的完整句子打包到序列中，没有 NSP 目标。
DOC-SENTENCES: 类似于 FULL-SENTENCES，但确保所有句子都来自同一个文档。

实验表明，使用没有 NSP 的 FULL-SENTENCES 格式进行训练会产生最佳结果。作者还发现，更长时间（更多步数）和更多数据上的训练可以显著提高性能。

对于最终的 RoBERTa 模型，作者使用了以下配置：

BERT-large 架构（3.55 亿个参数）
来自不同来源的 160GB 文本
批量大小为 8K
峰值学习率为 0.0004
500K 训练步数
字节级 BPE，词汇量为 50K

性能结果

RoBERTa 在多个基准测试中取得了最先进的结果：

GLUE 基准测试：RoBERTa 在所有任务中都优于 BERT-large，并且达到或超过了 XLNet 的性能。值得注意的是，RoBERTa 在没有多任务微调的情况下取得了这些结果。
SQuAD 问答：在 SQuAD v1.1 开发集上，RoBERTa 与经过专门针对问答进行额外数据训练的 BERT-large 的性能相匹配。
RACE 阅读理解：RoBERTa 在这个具有挑战性的多项选择阅读理解数据集上显著优于之前的系统。

这些结果表明，原始 BERT 架构在预训练期间得到适当优化后，仍然具有很强的竞争力。

技术见解

该研究提供了关于语言模型预训练的几个有价值的技术见解：

动态 vs. 静态 Masking：动态 masking 至少与静态 masking 一样有效。由于每个序列每次都看到不同的 masking 模式，因此模型在相同数量的训练步骤中遇到更多的 masking 模式。
NSP 的影响：与最初的假设相反，下一个句子预测目标并不能持续提高性能，有时甚至可能是有害的。这一发现挑战了之前认为 NSP 是 BERT 成功的关键组成部分的观点。
批量大小效应：使用更大的批量（8K vs. 256）进行训练可以提高困惑度（语言建模性能）和下游任务准确性。这对于现代硬件上的分布式训练尤其重要。
训练时长：作者发现 BERT 在其原始实现中明显训练不足，而继续训练可以带来更好的性能。
数据大小和多样性：增加预训练数据的数量和多样性可以显著提高性能，突出了自监督学习中数据管理的重要性。