Language models scale reliably with over-training and on downstream tasks

发表年份:2025年

作者:Samir Yitzhak Gadre 等(多位作者,来自多个机构)

作者机构:包括哥伦比亚大学、丰田研究院、UT Austin、苹果、华盛顿大学、Juelich超算中心、LAION、Allen AI、UC Berkeley、斯坦福大学等

期刊/会议:ICLR(International Conference on Learning Representations)

研究目的

本研究旨在解决当前语言模型扩展规律研究中的两个主要局限:

  1. 过训练(over-training)的扩展规律:现有研究多集中在“计算最优”训练,而实践中常采用过训练以降低推理成本;

  2. 下游任务性能预测:现有扩展规律多基于困惑度,而实际评估更依赖下游任务表现。
    绝大多数经典的扩展定律研究(如Kaplan, Chinchilla)都使用验证集上的困惑度(或等价的损失) 作为衡量模型性能Y轴。这是因为困惑度是一个平滑、稳定、可预测的指标,非常适合用于拟合幂律关系。

    然而,当研究者和工程师真正要判断一个模型“好不好”时,他们看的不是它的困惑度有多低。他们看的是模型在下游任务上的表现,例如:

    • 问答(如SQuAD):能正确回答问题的比例。

    • 常识推理(如HellaSwag):能选出合乎逻辑的句子结尾的比例。

    • 代码生成(如HumanEval):能通过单元测试的代码比例。

      这些任务的评估指标通常是准确率、F1分数、通过率等。

什么是过训练?

过训练 指的是在训练语言模型时,使用的训练数据量(Token数量)超过了在给定计算预算下为实现最低验证损失所推荐的“计算最优”数据量

为了理解这一点,我们首先需要了解 “计算最优”训练(Chinchilla 最优)

  • 核心思想:由DeepMind的Chinchilla论文提出。对于固定的计算预算(以FLOPs衡量),存在一个模型参数规模(N)和训练数据量(D)的最佳配比,使得模型的验证损失最低。

  • 结论:Chinchilla发现,当时的大模型(如GPT-3)是“参数过大、数据不足”的。他们建议,在扩大计算预算时,应该同时增加模型参数和训练数据。其著名的经验法则是:在计算最优情况下,所需的训练Token数量大约是模型参数数量的20倍(即 Token Multiplier M = D/N ≈ 20)。

  • 目标最小化训练阶段的验证损失

那么,既然有计算最优的方案,为什么还要“过训练”呢?

过训练的动机:降低推理成本

  • 推理成本:模型训练是一次性的巨大投入,但模型部署后,为亿万用户提供服务(推理)是持续性的成本。推理成本与模型的大小密切相关。模型越大,每次生成一个Token所需的内存和计算量就越高。

  • 过训练的实践:与其训练一个巨大的、计算最优的模型(例如,一个700B参数的模型,需要1.4T Token),不如训练一个更小的模型,但用更多的数据(例如,一个7B参数的模型,使用2T Token进行训练)。

    • 这个小模型在训练结束时可能没有达到理论上最低的验证损失,但它通过“见过更多数据”获得了强大的能力。

    • 由于模型参数大大减少,其推理速度更快,所需硬件资源更少,部署成本显著降低

简单比喻:

  • 计算最优:培养一个天赋极高的博士生(大模型),给他足够成为顶尖学者的经典书籍(最优数据量)。

  • 过训练:培养一个非常勤奋努力的硕士生(小模型),让他博览群书,阅读量远超前者(过量数据)。虽然他的理论天花板可能不如博士生,但他的知识广度和实践能力可能非常出色,并且“雇佣成本”(推理成本)更低。

在论文中,他们使用 Token Multiplier M = D/N 来量化过训练的程度M = 20 接近计算最优,而像 Llama-2 7B 的 M ≈ 290 就是一个典型的过训练模型。

什么是扩展规律?

扩展规律 是一类经验法则,它描述了模型的性能如何随着关键资源(如模型参数数量、训练数据量、计算量)的增加而可预测地提升

核心思想:
通过进行一系列小型、可控的实验,我们可以拟合出一个数学函数(通常是幂律关系,即在对数坐标上呈一条直线)。然后,利用这个函数,我们可以预测一个更大、更昂贵的模型在训练完成后的性能,而无需真正去训练它。

扩展规律中的关键变量:

  • 模型规模(N):模型的参数量。

  • 数据规模(D):训练模型所使用的Token数量。

  • 计算量(C):训练过程所消耗的总浮点运算次数,通常近似为 C ≈ 6ND

  • 性能(L):通常用验证损失困惑度来衡量(见下文)。

经典的扩展规律形式:
一个典型的发现是,模型的验证损失随着计算量C的增加而遵循幂律下降:
L(C) ≈ a * C^(-k) + b
其中akb是常数。这意味着,每当我们把计算量翻倍,损失就会以一个可预测的比例下降。

为什么扩展规律如此重要?

  • 降低风险和成本:训练一个超大型模型可能需要数百万美元。扩展规律允许团队通过廉价的小规模实验来“去风险”,提前预知哪种模型架构、数据配方能在最终规模上胜出。

  • 指导资源分配:例如,Chinchilla定律告诉我们,在固定计算预算下,应该如何平衡模型大小和数据大小,以达到最佳性能。

什么是困惑度?

困惑度 是评估语言模型性能的一个核心内部指标。它直接来源于交叉熵损失,可以直观地理解为模型在“预测下一个词”时的平均不确定性难度

定义:
困惑度是交叉熵损失的指数。如果损失是 L,那么困惑度 PP = exp(L)

如何直观理解?
想象一下,模型在阅读一段文本,并不断地预测下一个词是什么。

  • 一个完美的模型(困惑度 = 1):

    • 它总是能100%确定下一个正确的词。对于它来说,预测下一个词没有任何“困惑”或不确定性,就像填空时只有一个绝对正确的答案。

    • 例如,在句子 “The capital of France is ___” 后面,它会给 “Paris” 分配100%的概率。

  • 一个优秀的模型(困惑度较低,例如 < 10):

    • 它在大多数时候都能很确定下一个词。平均来说,它感觉下一个词像是在从一个小列表(例如10个词)中选择一个。不确定性较低。

    • 例如,在同样的句子后,它可能认为 “Paris” 的概率是90%,”Lyon” 是5%,”Bordeaux” 是3%等。

  • 一个糟糕的模型(困惑度较高,例如 > 100):

    • 它非常“困惑”,对下一个词是什么几乎没有头绪。平均来说,它感觉下一个词像是在从一个巨大的、包含数百个词的词汇表中随机挑选。不确定性非常高。

    • 在同样的句子后,它可能给成千上万个词分配了相似的低概率。

因此,困惑度的数值可以大致解释为:模型在预测时,感觉像是在多少个等概率的候选词中进行选择。 困惑度越低,模型越好。


方法

  1. 构建大规模测试集

    • 训练了 104 个模型,参数规模从 0.011B 到 6.9B;

    • 使用三种不同数据分布(C4、RedPajama、RefinedWeb);

    • 控制 token multiplier M=D/NM=D/N(训练token数/参数数),模拟不同程度的过程练。

  2. 提出扩展定律

    • 过训练扩展定律:基于计算量 C 和 token multiplier M 预测验证损失;

    • 下游任务扩展定律:建立验证损失与下游任务平均 top-1 错误率之间的幂律关系。

  3. 实验验证

    • 使用小规模实验拟合扩展定律,预测大规模模型性能;

    • 验证在过训练和计算最优两种设置下的预测准确性。


主要结论

  1. 过训练性能可预测

    • 扩展定律能准确预测过训练模型的验证损失;

    • 例如,用 300 倍少的计算量预测 1.4B 模型在 900B token 训练下的性能。

  2. 下游任务性能可预测

    • 平均下游任务错误率随验证损失呈指数下降;

    • 可用 20 倍少的计算量预测 6.9B 模型在下游任务上的表现。

  3. 扩展定律具有泛化性

    • 在不同训练数据集(C4、RedPajama、RefinedWeb)上均表现一致;

    • 适用于不同程度的过训练。


创新点

  1. 首次系统研究过训练下的扩展规律,提出统一建模框架;

  2. 建立验证损失与下游任务性能之间的定量关系,填补了扩展规律与评估指标之间的鸿沟;

  3. 构建并公开大规模实验测试集,促进扩展研究的可复现性与可访问性;

  4. 提出可链式使用的扩展定律,支持从训练配置直接预测下游性能。


局限性

  1. 超参数敏感性:扩展定律的可靠性依赖于前期大规模超参数搜索;

  2. 规模上限:尚未验证在更大规模(如 >7B)或更困难任务(如 MMLU)上的扩展行为;

  3. 个体任务预测困难:虽然平均性能可预测,但单个下游任务预测仍不稳定;

  4. 未考虑后训练技术:如指令微调、对齐等后处理步骤的影响未纳入研究;

  5. 数据集限制:仅使用现有公开数据集,未研究数据筛选对扩展的影响;

  6. 推理成本建模不足:虽提及推理成本,但未在扩展定律中显式建模。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐