这是一篇产学研结合的论文,研究者发现:

  • 大模型能学会小模型学不会的任务,这不是"样本效率"问题,而是一道硬上限:哪怕给小模型喂无限多数据,它也补不齐这部分损失。这个判断,用现有的幂律 Scaling Law 就能直接推出来。
  • 一个任务"学得早还是晚",由它的效用(utility)= 频率 × 信号强度决定。又稀有、又复杂的任务效用最低,最后才会被学会,而且往往只有更大的模型学得会。
  • 大模型突破瓶颈的机制是减少梯度干扰 + 保留稀有任务记忆:常见任务被"喂饱"后梯度变弱,腾出容量;同时大模型能在两次稀有样本之间记住上一次的更新,把微弱信号一点点攒起来。小模型则陷入"学了又忘"的拉锯。
  • 论文从「现象学论证 → 玩具线性回归理论 → 合成实验 → 真实 OLMo(4M–4B)三层证据」完整跑了一遍,逻辑闭环。
  • 对工程最直接的启示:想让模型掌握某个尾部能力,提高它在数据里的频率,常常比堆参数更划算;样本"间隔"比"总量"更关键;适度的 memorization 不是坏事,而是泛化的前提。

一、被"涌现"两个字盖住的真问题

过去几年,业界对"大模型为什么强"的标准答案是两个字:涌现(emergence)。某些关键能力,小模型上是随机水平,模型一旦做大就突然出现。这种叙事很有冲击力,也直接给"无脑放大参数"提供了正当性。

但作者一上来就提了个更难、也更值钱的问题:既然大模型训练和推理都这么贵,那多出来的参数到底买到了什么边际能力?放大参数是不是实现这些能力的唯一路径?

这篇文章的整体立场是以数据为中心(data-centric):要解释"大模型学得更多",光问"它能表达什么(表达能力)“是不够的,还得问"在给定的数据混合下,梯度下降到底能学会什么”。

二、第一记重拳:Scaling Law 自己就预言了"小模型学不会"

这是全文最优雅的一步,几乎不需要做新实验。

神经网络的损失随参数 NNN、数据 DDD 单调下降,服从经典幂律:

L(N,D)=L0+ANα+BDβ L(N, D) = L_0 + \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}} L(N,D)=L0+NαA+DβB

其中 L0L_0L0 是不可约损失,α,β\alpha, \betaα,β 是参数 / 数据指数(Chinchilla 下 α≈0.46\alpha \approx 0.46α0.46β≈0.51\beta \approx 0.51β0.51)。计算最优训练给出 LC(N)∝N−γL_C(N) \propto N^{-\gamma}LC(N)Nγγ=0.34\gamma = 0.34γ=0.34

关键的一步推理是:把数据送到无穷,即令 D→∞D \to \inftyD,数据项消失,只剩

L∞(N)=L0+A N−α L_{\infty}(N) = L_0 + A\,N^{-\alpha} L(N)=L0+ANα

注意,这仍然是 NNN减函数。也就是说——哪怕给定无限数据,更大的模型仍然能达到更低的损失。于是,对于一个小模型 NsN_sNs 和大模型 NlN_lNlNs<NlN_s < N_lNs<Nl),有一段损失

A(Ns−α−Nl−α)>0 A\left(N_s^{-\alpha} - N_l^{-\alpha}\right) > 0 A(NsαNlα)>0

是小模型无论喂多少数据都无法消除的。再加上实践中 α>γ\alpha > \gammaα>γ,这个渐近上的差距确实存在,不会被"多训练"洗掉。

作者据此把"大模型多学的那部分"严格区分成两类:

  • 数据可补(Definition 1,learnable via data scaling):小模型只是没训够,本质上"欠拟合",大模型只是更省样本地先到达;给小模型足够数据,它能追上。
  • 必须靠模型(Definition 2,learnable via model scaling):即使无限数据,小模型也永远到不了大模型的损失。这才是"涌现"真正有意思、值得研究的那部分。

一句话:这篇文章把"涌现"从玄学拉回到了 Scaling Law 的地面上——它不是神秘现象,而是幂律的直接推论。而这群研究者们要回答的,正是 Definition 2 背后那个"为什么"和"怎么做到的"。

三、搬进玩具实验室:多任务线性回归

为了把机制看清楚,作者构造了一个可解析的玩具设定:一个由 KKK 个线性回归任务组成的混合

  • kkk 个任务以频率 πk>0\pi_k > 0πk>0 出现,∑kπk=1\sum_k \pi_k = 1kπk=1
  • 协方差 Ck=BkΛkBk⊤C_k = B_k \Lambda_k B_k^{\top}Ck=BkΛkBk,其中特征矩阵 BkB_kBk 列正交,Λk=diag(λk,1,λk,2,… )\Lambda_k = \mathrm{diag}(\lambda_{k,1}, \lambda_{k,2}, \dots)Λk=diag(λk,1,λk,2,) 谱值递减;
  • 不同任务占据正交的子空间块Bk⊤Bℓ=0B_k^{\top} B_{\ell} = 0BkB=0k≠ℓk \neq \ellk=);
  • 谱衰减得越慢的任务越"复杂"——因为要用更多方向才能拟合目标。

学生模型是一个共享的宽度为 NNN 的编码器 UUU,加上每个任务各自的线性解码器 DkD_kDk,预测为 y^k=DkU⊤x\hat{y}_k = D_k U^{\top} xy^k=DkUx。由于最优解码器有闭式解,整篇分析就集中在编码器 UUU(也就是模型"用了哪些方向 / 神经元")上。

这个设定聪明在哪? 每个任务本身都是模型可以表达的(解码器闭式可解)。所以问题被干净地剥离成:不是"能不能表达",而是"在梯度下降 + 数据混合下,到底学不学得到"。 这正好对应了 Definition 2。这里的"宽度 NNN"就是后文一切的"容量"——可用方向 / 神经元的数量。

四、核心定理一:特征按"效用"被学习

Theorem 3(特征按效用顺序被学习)。 对给定的 UUU,混合损失可化简为

LN(U)=Tr(M)−Tr(U⊤MU),M:=∑k=1KπkCk L_N(U) = \mathrm{Tr}(M) - \mathrm{Tr}(U^{\top} M U), \qquad M := \sum_{k=1}^{K} \pi_k C_k LN(U)=Tr(M)Tr(UMU),M:=k=1KπkCk

于是宽度为 NNN 的最优编码器,恰好张成 MMMNNN 大特征空间,而这些特征值正是

 uk,j:=πkλk,j  \boxed{\,u_{k,j} := \pi_k \lambda_{k,j}\,} uk,j:=πkλk,j

作者把它命名为效用(utility)。直白地说:效用 = 任务出现的频率 πk\pi_kπk × 该方向上的信号强度 λk,j\lambda_{k,j}λk,j 模型从高到低把这 NNN 个效用最高的方向占满。任务 kkk 学到 nk(N)n_k(N)nk(N) 个方向后,残差损失就是 ℓk∗(N)=∑j>nk(N)λk,j\ell_k^*(N) = \sum_{j > n_k(N)} \lambda_{k,j}k(N)=j>nk(N)λk,j

这一个量同时把频率复杂度装了进去:

  • 频率高 → 效用高 → 先学;
  • 任务内部,谱值大的主方向 → 先学;
  • 又稀有(πk\pi_kπk 小)、又复杂(谱衰减慢、需要很多方向,连主方向 λ\lambdaλ 都不算大)→ 效用垫底 → 只有更大的模型才学得到。

附录 D 的"复杂度扫描"还给了一个反直觉的细节:当复杂度在任务间不一致时,学习顺序不再单纯由频率决定——一个"最复杂"任务的第三个模态,可能比一个更高频任务的高阶模态先被学会,导致相位边界出现非单调。也就是说,频率和复杂度必须一起看。

五、核心机制:Scaling 怎么"腾出手"去学稀有任务

只知道"低效用任务原则上可学"还不够。当一个任务出现得极其稀少(实验里有的只占 0.25%),还存在一个统计瓶颈。论文用两条结论把"宽度如何破局"讲清楚了。

(1) 常见任务被喂饱后,梯度会变弱(Theorem 4 + Corollary 5)。
FFF 是常见 / 高频任务集合,MF=∑k∈FπkCkM_F = \sum_{k \in F} \pi_k C_kMF=kFπkCk,残差信号 δF(U)=Tr((I−PU)MF)\delta_F(U) = \mathrm{Tr}\big((I - P_U) M_F\big)δF(U)=Tr((IPU)MF)。常见任务的聚合梯度满足

∥GF(U)∥F≤2λ1(MF) δF(U) \|G_F(U)\|_F \le 2\sqrt{\lambda_1(M_F)\,\delta_F(U)} GF(U)F2λ1(MF)δF(U)

含义是:一组任务只能通过"当前表征还没解释掉的那部分协方差(残差 δF\delta_FδF)"来推动模型。一旦高效用的常见特征被学会,残差变小,它们的梯度也随之变弱——常见任务"不再抢资源",富余的宽度就让给了稀有任务。 宽度越大,常见任务的残差被压得越小,腾出的空间越多。

(2) 稀有任务能否"稳住",看它是否压得过常见任务里最弱的方向(Proposition 6)。
考虑一个稀有的秩一任务 Cr=λrbrbr⊤C_r = \lambda_r b_r b_r^{\top}Cr=λrbrbr。常见任务的解对方向 brb_rbr 稳定(学它不会让常见任务损失上升),当且仅当

πrλr<μNF,Nrcrit:=min⁡{N:μNF≤πrλr} \pi_r \lambda_r < \mu_N^F, \qquad N_r^{\mathrm{crit}} := \min\{N : \mu_N^F \le \pi_r \lambda_r\} πrλr<μNF,Nrcrit:=min{N:μNFπrλr}

这里 μNF\mu_N^FμNF 是常见任务协方差第 NNN 个特征值,也就是"被占用的最弱常见方向"。宽度增大会把 μNF\mu_N^FμNF 一路压低,直到低于稀有任务的效用 πrλr\pi_r \lambda_rπrλr,稀有特征才能稳定地"挤进来"。 反过来,如果稀有任务的效用比常见任务最弱方向还低,那就算它一时被学到,也会被常见任务的低阶模态反复替换掉。

记忆与遗忘的拉锯(update-and-forget)

第二点直接引出全文最有画面感的机制。附录 C.4 用一个单神经元、两任务的极简模型给出了闭式:当一次稀有更新之后紧跟 GGG 步常见任务更新,稀有任务的对齐度近似

θG≈(1−2η)Gθ0≈e−2ηGθ0 \theta_G \approx (1 - 2\eta)^G \theta_0 \approx e^{-2\eta G} \theta_0 θG(12η)Gθ0e2ηGθ0

稀有任务的对齐度随着两次观测之间的间隔 GGG 指数衰减。 于是:

小模型:每次看到稀有样本会短暂学一点,但在下次样本到来前,被高频任务的更新冲回近零——陷入"学了又忘"的循环。
大模型:能在两次注入之间保留住大部分信号,并在下一次基础上继续累加,最终学会。

一个值得单独点名的实验设计:matched-frequency injection

怎么把"间隔"和"总频率"这两件事分开?作者设计了匹配频率注入:把稀有任务憋住 GGG 步不出现,然后一次性注入一个放大的批次(m=G⋅B⋅ρrm = G \cdot B \cdot \rho_rm=GBρr 个样本),使得它的长期总频率在所有 GGG 设置下完全一致

这样一来,唯一变化的就是"观测之间的间隔"。结果非常干净:训练结束时,稀有任务信号随间隔 GGG 单调衰减,对小模型衰减得尤其陡峭;而频繁任务信号几乎不受影响。 这种"控制变量"式的实验设计本身就很值得借鉴。

六、从玩具到真实:OLMo 4M→4B 的三层验证

理论再漂亮,也得在真实 LLM 上验证。作者用 OLMo 流水线训练了 4M、20M、300M、1B、4B 五个规模的模型,在 Dolma v1.7 上跑了约 50K 步(最多 210B token)。

难点在于:自然语料里"任务频率"几乎无法精确测量(同一个任务有无数表面形式)。他们借用了记忆研究里的数据注入框架:注入两个"特殊任务"(自然语料里基本不会出现),按可控频率掺进训练数据:

  • TCMP(比较):给两个 token,预测哪个更大;
  • TADD(模加法):预测 (val(TOK1)+val(TOK2)) mod 100(\mathrm{val}(\text{TOK}_1) + \mathrm{val}(\text{TOK}_2)) \bmod 100(val(TOK1)+val(TOK2))mod100

两者都编码成三个 token,各有 1 万个实例,五五开做训练 / 测试。关键是这两个任务都需要模型学到特定几何结构才能泛化,从而能区分"真学会"和"只背下来"。然后从三个层面验证:

① 行为层(Fig 5, 6)。 大模型学低频任务明显更好;任务按频率顺序被学会;更重要的是,大模型不是只把训练样本背下来(低 train loss),而是学到了可泛化的结构(高 eval accuracy)。在 TADD 上,只有"够大 + 够频繁"的组合才出现 grokking。匹配频率注入也复现了:间隔越大,任务 loss 越高,哪怕全局频率相同。

② 表征层(Fig 7)。 用 DAS(分布式对齐搜索)定位任务特征:TCMP 的"全局 token 顺序"可定位到第一层残差流里的一个一维子空间(干预成功率 96%);TADD 的特征是 Fourier 模态。模型越大、训练频率越高,这些任务特征出现得越多、越快。

③ 梯度层(Fig 8, 9)。 把批次梯度分解成"任务 token 贡献"和"非任务 token 贡献",再和任务参考方向 grg_rgr 算余弦相似度。结果很说明问题:1B 模型在注入步上 ggggrg_rgr 的相似度更高,而非任务梯度 gntg_{nt}gnt 几乎与 grg_rgr 正交(1B:7.58×10−57.58 \times 10^{-5}7.58×105;20M:0.10±0.090.10 \pm 0.090.10±0.09——大模型几乎没有干扰,小模型的"相似度"基本来自随机碰撞。

三个层面的证据,和玩具理论的预言一一对上。

七、作者们到底做了哪些独创性工作?

把贡献拎出来看,这篇文章的原创性集中在六点:

  1. 把"涌现"从现象学拉回到 Scaling Law 的地面:用现有幂律直接推出"无限数据也补不齐的硬上限",并严格区分"数据可补"与"必须靠模型"两个区间——这是把直觉变成定义。
  2. 提出统一的效用排序规则 u=π×λu = \pi \times \lambdau=π×λ:用一个量同时刻画频率与复杂度,给出"宽度到底买到了什么"的可计算答案。
  3. 给出机制,而不只是相关性:不是泛泛地说"容量大就好",而是具体到"残差控制梯度强度 + 临界宽度决定稀有特征能否稳定占位"两条可证明的机制。
  4. 设计 matched-frequency injection:干净地把"频率"与"间隔"解耦,从而把"记忆 / 遗忘的拉锯"这件事单独测出来。
  5. 端到端的证据链:现象学论证 → 玩具线性回归(可解析)→ 合成实验 → 真实 OLMo 的行为 / 表征 / 梯度三层验证,跨越 4M 到 4B。
  6. 重新定位 memorization 的角色:把"背下来"从纯粹的坏事,重新理解为稀有任务走向泛化的前置条件——通过更长时间地保留实例,模型才能跨批次累积信号、最终抽象出可泛化结构。这与 Feldman 关于"长尾需要记忆"的论证、以及 grokking 的"先记忆后泛化"动力学一脉相承。

放进学术坐标看:它接续了 Bordelon / Maloney / Michaud 等人"用数据统计解释幂律"的动力学路线,但落点不同——别人关心"最终收敛到什么样的相位 / 函数形式",这篇关心"通往那里的学习动力学";它也和多任务 / 持续学习里的"梯度饥饿(gradient starvation)""灾难性遗忘"对话,但补上了"规模的作用"这一维度。

八、给工程师 / 炼丹师的启示

这部分是这篇论文真正能"落地"的地方。结合论文结论,可借鉴的点:

  1. 模型大小和数据频率,是可以相互替换的两个杠杆。 如果某个尾部能力模型学不会,你有两条路:放大模型,或者提高这个能力在数据里的频率。论文明确指出后者常常更省——“把目标任务的频率调上去,可能比把模型做大更高效”。对于预训练 / 微调的数据配比设计,这是直接可用的判断。

  2. 用"效用 = 频率 × 复杂度"的思维做数据配比。 又稀有又复杂的能力是最难、最晚学会的。如果你在意它,就必须主动抬高它的有效效用(提频)或抬高容量,而不能指望它"顺带"被学到。

  3. 样本"间隔"比"总量"更关键。 同样的总频率,把稀有重要样本聚集 / 重放(缩小间隔),比稀稀拉拉地铺开有效得多——这恰好为 replay / rehearsal / 课程学习提供了机制层面的理由。在持续学习、增量微调里,重要但稀少的样本被拉得太开,可能根本学不进去。

  4. 不要无脑反对 memorization。 论文提示:对尾部能力来说,"先记住实例"是"后泛化"的必经之路。这意味着过度去重、或过强的反记忆正则,可能反而伤害长尾能力的学习——隐私 / 防记忆诉求与尾部能力获取之间,需要权衡,而不是一刀切。

  5. "模型学不会"要分三种病因,对症下药。 ① 表达能力不足(架构问题,得换结构);② 样本效率不足(多喂数据就能追上);③ 干扰 / 记忆瓶颈(要么加容量,要么提频,要么缩小间隔)。论文给了诊断工具(信号占比、梯度干扰),别一看到学不会就默认"得换更大的模型"。

  6. 梯度干扰是可测、可干预的。 "任务梯度之间的余弦相似度"是一个现成的诊断指标。如果非目标 token 的梯度在干扰你的目标方向,这就是容量在打架的信号。除了放大模型,gradient surgery / PCGrad / 正交梯度这类多任务方法是另一条路。

  7. train loss 低 ≠ 学会了。 论文反复区分"记住训练样本(低 train loss)“和"学到可泛化结构(高 eval accuracy、表征里出现 Fourier 模态)”。评估一个能力是否真正习得,要看泛化和表征结构,别只盯训练损失。

  8. 当心 grokking 式的延迟泛化。 论文发现真实预训练里,稀有任务也会出现"先记忆后突然泛化"的动力学。所以针对尾部能力的训练,别太早杀实验——它可能在后期才"开窍"。

  9. 针对特定能力,算力分配要重新算。 附录 F.2 显示:学低频任务时,大模型在同等算力下反而更高效。也就是说,如果你的目标是某个尾部能力,它对应的 compute-optimal 模型尺寸,可能比"为大盘分布选的尺寸"更大。

  10. 方法论本身值得抄作业。 “构造一个可解析的玩具 → 推出可证明的预言 → 在真实系统多层验证”,这套范式适用于几乎任何想把"经验现象"讲成"机制"的研究或工程复盘。

九、局限与作者的诚实

这篇文章在 Limitations 里相当克制,这点值得肯定:

  • 他们不认为规模是学会稀有任务的唯一机制——表达能力、样本效率与本文的"学习动力学"是互补而非竞争的解释,完整图景需要三者并存。
  • 真实验证只做到 4B,没有验证更大规模或过度训练(over-trained)的模型,也没有覆盖极端频率区间。
  • 注入任务是"匹配了 OLMo 预训练中任务频率"来选的,因此不能排除在极端频率下出现别的缩放行为。

换句话说,结论应被当作强有力的支持性证据,而不是对缩放的"完整解释"。

结语

这篇文章最大的价值,是把"模型越大越好"从一个黑箱经验事实,改写成了一个关于资源竞争、梯度干扰、记忆保留的可解释故事——并且顺手把球踢给了工程:原来在不买更多 GPU 的前提下,调数据频率、控样本间隔、用重放,也能撬动那些藏在分布尾部的能力。

对每天在配数据、调混合比、追某个迟迟学不会的能力的人来说,它提供的不只是一个解释,而是一组可以立刻去拨的旋钮。

论文:Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention,arXiv:2605.29548v2。文中图表编号沿用原文,建议配合原图阅读。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐