【文献阅读】语言模型在过训练和下游任务中可靠地遵循扩展规律

过训练指的是在训练语言模型时，使用的训练数据量（Token数量）超过了在给定计算预算下为实现最低验证损失所推荐的“计算最优”数据量。为了理解这一点，我们首先需要了解“计算最优”训练（Chinchilla 最优）核心思想：由DeepMind的Chinchilla论文提出。对于固定的计算预算（以FLOPs衡量），存在一个模型参数规模（N）和训练数据量（D）的最佳配比，使得模型的验证损失最低。结论：Ch

飞飞是甜咖啡

1014人浏览 · 2025-10-28 11:26:03

飞飞是甜咖啡 · 2025-10-28 11:26:03 发布

Language models scale reliably with over-training and on downstream tasks

发表年份：2025年

作者：Samir Yitzhak Gadre 等（多位作者，来自多个机构）

作者机构：包括哥伦比亚大学、丰田研究院、UT Austin、苹果、华盛顿大学、Juelich超算中心、LAION、Allen AI、UC Berkeley、斯坦福大学等

期刊/会议：ICLR（International Conference on Learning Representations）

研究目的

本研究旨在解决当前语言模型扩展规律研究中的两个主要局限：

过训练（over-training）的扩展规律：现有研究多集中在“计算最优”训练，而实践中常采用过训练以降低推理成本；
下游任务性能预测：现有扩展规律多基于困惑度，而实际评估更依赖下游任务表现。
绝大多数经典的扩展定律研究（如Kaplan, Chinchilla）都使用验证集上的困惑度（或等价的损失） 作为衡量模型性能Y轴。这是因为困惑度是一个平滑、稳定、可预测的指标，非常适合用于拟合幂律关系。

然而，当研究者和工程师真正要判断一个模型“好不好”时，他们看的不是它的困惑度有多低。他们看的是模型在下游任务上的表现，例如：
- 问答（如SQuAD）：能正确回答问题的比例。
- 常识推理（如HellaSwag）：能选出合乎逻辑的句子结尾的比例。
- 代码生成（如HumanEval）：能通过单元测试的代码比例。
  
  这些任务的评估指标通常是准确率、F1分数、通过率等。

什么是过训练？

过训练 指的是在训练语言模型时，使用的训练数据量（Token数量）超过了在给定计算预算下为实现最低验证损失所推荐的“计算最优”数据量。

为了理解这一点，我们首先需要了解 “计算最优”训练（Chinchilla 最优）：

核心思想：由DeepMind的Chinchilla论文提出。对于固定的计算预算（以FLOPs衡量），存在一个模型参数规模（N）和训练数据量（D）的最佳配比，使得模型的验证损失最低。

结论：Chinchilla发现，当时的大模型（如GPT-3）是“参数过大、数据不足”的。他们建议，在扩大计算预算时，应该同时增加模型参数和训练数据。其著名的经验法则是：在计算最优情况下，所需的训练Token数量大约是模型参数数量的20倍（即 Token Multiplier M = D/N ≈ 20）。

目标：最小化训练阶段的验证损失。

那么，既然有计算最优的方案，为什么还要“过训练”呢？

过训练的动机：降低推理成本

推理成本：模型训练是一次性的巨大投入，但模型部署后，为亿万用户提供服务（推理）是持续性的成本。推理成本与模型的大小密切相关。模型越大，每次生成一个Token所需的内存和计算量就越高。

过训练的实践：与其训练一个巨大的、计算最优的模型（例如，一个700B参数的模型，需要1.4T Token），不如训练一个更小的模型，但用更多的数据（例如，一个7B参数的模型，使用2T Token进行训练）。

这个小模型在训练结束时可能没有达到理论上最低的验证损失，但它通过“见过更多数据”获得了强大的能力。

由于模型参数大大减少，其推理速度更快，所需硬件资源更少，部署成本显著降低。

简单比喻：

计算最优：培养一个天赋极高的博士生（大模型），给他足够成为顶尖学者的经典书籍（最优数据量）。

过训练：培养一个非常勤奋努力的硕士生（小模型），让他博览群书，阅读量远超前者（过量数据）。虽然他的理论天花板可能不如博士生，但他的知识广度和实践能力可能非常出色，并且“雇佣成本”（推理成本）更低。

在论文中，他们使用 Token Multiplier M = D/N 来量化过训练的程度。M = 20 接近计算最优，而像 Llama-2 7B 的 M ≈ 290 就是一个典型的过训练模型。

什么是扩展规律？

扩展规律 是一类经验法则，它描述了模型的性能如何随着关键资源（如模型参数数量、训练数据量、计算量）的增加而可预测地提升。

核心思想：
通过进行一系列小型、可控的实验，我们可以拟合出一个数学函数（通常是幂律关系，即在对数坐标上呈一条直线）。然后，利用这个函数，我们可以预测一个更大、更昂贵的模型在训练完成后的性能，而无需真正去训练它。

扩展规律中的关键变量：

模型规模（N）：模型的参数量。

数据规模（D）：训练模型所使用的Token数量。

计算量（C）：训练过程所消耗的总浮点运算次数，通常近似为 C ≈ 6ND。

性能（L）：通常用验证损失或困惑度来衡量（见下文）。

经典的扩展规律形式：
一个典型的发现是，模型的验证损失随着计算量C的增加而遵循幂律下降：
L(C) ≈ a * C^(-k) + b
其中a，k，b是常数。这意味着，每当我们把计算量翻倍，损失就会以一个可预测的比例下降。

为什么扩展规律如此重要？

降低风险和成本：训练一个超大型模型可能需要数百万美元。扩展规律允许团队通过廉价的小规模实验来“去风险”，提前预知哪种模型架构、数据配方能在最终规模上胜出。

指导资源分配：例如，Chinchilla定律告诉我们，在固定计算预算下，应该如何平衡模型大小和数据大小，以达到最佳性能。

什么是困惑度？

困惑度 是评估语言模型性能的一个核心内部指标。它直接来源于交叉熵损失，可以直观地理解为模型在“预测下一个词”时的平均不确定性或难度。

定义：
困惑度是交叉熵损失的指数。如果损失是 L，那么困惑度 PP = exp(L)。

如何直观理解？
想象一下，模型在阅读一段文本，并不断地预测下一个词是什么。

一个完美的模型（困惑度 = 1）：

它总是能100%确定下一个正确的词。对于它来说，预测下一个词没有任何“困惑”或不确定性，就像填空时只有一个绝对正确的答案。

例如，在句子 “The capital of France is ___” 后面，它会给 “Paris” 分配100%的概率。

一个优秀的模型（困惑度较低，例如 < 10）：

它在大多数时候都能很确定下一个词。平均来说，它感觉下一个词像是在从一个小列表（例如10个词）中选择一个。不确定性较低。

例如，在同样的句子后，它可能认为 “Paris” 的概率是90%，”Lyon” 是5%，”Bordeaux” 是3%等。

一个糟糕的模型（困惑度较高，例如 > 100）：

它非常“困惑”，对下一个词是什么几乎没有头绪。平均来说，它感觉下一个词像是在从一个巨大的、包含数百个词的词汇表中随机挑选。不确定性非常高。

在同样的句子后，它可能给成千上万个词分配了相似的低概率。

因此，困惑度的数值可以大致解释为：模型在预测时，感觉像是在多少个等概率的候选词中进行选择。 困惑度越低，模型越好。

方法

构建大规模测试集：
- 训练了 104 个模型，参数规模从 0.011B 到 6.9B；
- 使用三种不同数据分布（C4、RedPajama、RefinedWeb）；
- 控制 token multiplier M=D/NM=D/N（训练token数/参数数），模拟不同程度的过程练。
提出扩展定律：
- 过训练扩展定律：基于计算量 C 和 token multiplier M 预测验证损失；
- 下游任务扩展定律：建立验证损失与下游任务平均 top-1 错误率之间的幂律关系。
实验验证：
- 使用小规模实验拟合扩展定律，预测大规模模型性能；
- 验证在过训练和计算最优两种设置下的预测准确性。

主要结论

过训练性能可预测：
- 扩展定律能准确预测过训练模型的验证损失；
- 例如，用 300 倍少的计算量预测 1.4B 模型在 900B token 训练下的性能。
下游任务性能可预测：
- 平均下游任务错误率随验证损失呈指数下降；
- 可用 20 倍少的计算量预测 6.9B 模型在下游任务上的表现。
扩展定律具有泛化性：
- 在不同训练数据集（C4、RedPajama、RefinedWeb）上均表现一致；
- 适用于不同程度的过训练。