为什么更大的模型“学得更多“？——把“涌现“拆成容量、干扰与稀有任务记忆

本文通过分析解读Jing Huang等人的论文，探讨了大模型相较于小模型具备更强学习能力的根本原因。研究者们基于Scaling Law提出了两类能力划分：数据可补能力和必须靠模型规模才能获得的能力。研究发现：任务学习顺序由"效用=频率×信号强度"决定，稀有复杂任务效用最低，往往只有大模型能学会；大模型通过减少梯度干扰和保留稀有任务记忆突破瓶颈：常见任务饱和后梯度减弱腾出容量，同时大模型能积累微弱

xianghongtao0116

336人浏览 · 2026-06-02 23:20:09

xianghongtao0116 · 2026-06-02 23:20:09 发布

这是一篇产学研结合的论文，研究者发现：

大模型能学会小模型学不会的任务，这不是"样本效率"问题，而是一道硬上限：哪怕给小模型喂无限多数据，它也补不齐这部分损失。这个判断，用现有的幂律 Scaling Law 就能直接推出来。
一个任务"学得早还是晚"，由它的效用（utility）= 频率 × 信号强度决定。又稀有、又复杂的任务效用最低，最后才会被学会，而且往往只有更大的模型学得会。
大模型突破瓶颈的机制是减少梯度干扰 + 保留稀有任务记忆：常见任务被"喂饱"后梯度变弱，腾出容量；同时大模型能在两次稀有样本之间记住上一次的更新，把微弱信号一点点攒起来。小模型则陷入"学了又忘"的拉锯。
论文从「现象学论证 → 玩具线性回归理论 → 合成实验 → 真实 OLMo（4M–4B）三层证据」完整跑了一遍，逻辑闭环。
对工程最直接的启示：想让模型掌握某个尾部能力，提高它在数据里的频率，常常比堆参数更划算；样本"间隔"比"总量"更关键；适度的 memorization 不是坏事，而是泛化的前提。

一、被"涌现"两个字盖住的真问题

过去几年，业界对"大模型为什么强"的标准答案是两个字：涌现（emergence）。某些关键能力，小模型上是随机水平，模型一旦做大就突然出现。这种叙事很有冲击力，也直接给"无脑放大参数"提供了正当性。

但作者一上来就提了个更难、也更值钱的问题：既然大模型训练和推理都这么贵，那多出来的参数到底买到了什么边际能力？放大参数是不是实现这些能力的唯一路径？

这篇文章的整体立场是以数据为中心（data-centric）：要解释"大模型学得更多"，光问"它能表达什么（表达能力）“是不够的，还得问"在给定的数据混合下，梯度下降到底能学会什么”。

二、第一记重拳：Scaling Law 自己就预言了"小模型学不会"

这是全文最优雅的一步，几乎不需要做新实验。

神经网络的损失随参数 $N$ 、数据 $D$ 单调下降，服从经典幂律：

$L_0 + \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}}$

其中 $L_0$ 是不可约损失， $α,β\alpha, \beta$ 是参数 / 数据指数（Chinchilla 下 $α≈0.46\alpha \approx 0.46$ ， $β≈0.51\beta \approx 0.51$ ）。计算最优训练给出 $LC(N)∝N−γL_C(N) \propto N^{-\gamma}$ ， $γ=0.34\gamma = 0.34$ 。

关键的一步推理是：把数据送到无穷，即令 $\to \infty$ ，数据项消失，只剩

$L_{\infty}(N) = L_0 + A\,N^{-\alpha}$

注意，这仍然是 $N$ 的减函数。也就是说——哪怕给定无限数据，更大的模型仍然能达到更低的损失。于是，对于一个小模型 $N_s$ 和大模型 $N_l$ （ $N_s < N_l$ ），有一段损失

$A\left(N_s^{-\alpha} - N_l^{-\alpha}\right) > 0$

是小模型无论喂多少数据都无法消除的。再加上实践中 $α>γ\alpha > \gamma$ ，这个渐近上的差距确实存在，不会被"多训练"洗掉。

作者据此把"大模型多学的那部分"严格区分成两类：

数据可补（Definition 1，learnable via data scaling）：小模型只是没训够，本质上"欠拟合"，大模型只是更省样本地先到达；给小模型足够数据，它能追上。
必须靠模型（Definition 2，learnable via model scaling）：即使无限数据，小模型也永远到不了大模型的损失。这才是"涌现"真正有意思、值得研究的那部分。

一句话：这篇文章把"涌现"从玄学拉回到了 Scaling Law 的地面上——它不是神秘现象，而是幂律的直接推论。而这群研究者们要回答的，正是 Definition 2 背后那个"为什么"和"怎么做到的"。

三、搬进玩具实验室：多任务线性回归

为了把机制看清楚，作者构造了一个可解析的玩具设定：一个由 $K$ 个线性回归任务组成的混合。

第 $k$ 个任务以频率 $πk>0\pi_k > 0$ 出现， $∑kπk=1\sum_k \pi_k = 1$ ；
协方差 $Ck=BkΛkBk⊤C_k = B_k \Lambda_k B_k^{\top}$ ，其中特征矩阵 $B_k$ 列正交， $)\Lambda_k = \mathrm{diag}(\lambda_{k,1}, \lambda_{k,2}, \dots)$ 谱值递减；
不同任务占据正交的子空间块（ $Bk⊤Bℓ=0B_k^{\top} B_{\ell} = 0$ ， $\neq \ell$ ）；
谱衰减得越慢的任务越"复杂"——因为要用更多方向才能拟合目标。

学生模型是一个共享的宽度为 $N$ 的编码器 $U$ ，加上每个任务各自的线性解码器 $D_k$ ，预测为 $y^k=DkU⊤x\hat{y}_k = D_k U^{\top} x$ 。由于最优解码器有闭式解，整篇分析就集中在编码器 $U$ （也就是模型"用了哪些方向 / 神经元"）上。

这个设定聪明在哪？ 每个任务本身都是模型可以表达的（解码器闭式可解）。所以问题被干净地剥离成：不是"能不能表达"，而是"在梯度下降 + 数据混合下，到底学不学得到"。 这正好对应了 Definition 2。这里的"宽度 $N$ "就是后文一切的"容量"——可用方向 / 神经元的数量。

四、核心定理一：特征按"效用"被学习

Theorem 3（特征按效用顺序被学习）。 对给定的 $U$ ，混合损失可化简为

$L_N(U) = \mathrm{Tr}(M) - \mathrm{Tr}(U^{\top} M U), \qquad M := \sum_{k=1}^{K} \pi_k C_k$

于是宽度为 $N$ 的最优编码器，恰好张成 $M$ 的前 $N$ 大特征空间，而这些特征值正是

$\boxed{\,u_{k,j} := \pi_k \lambda_{k,j}\,}$

作者把它命名为效用（utility）。直白地说：效用 = 任务出现的频率 $πk\pi_k$ × 该方向上的信号强度 $λk,j\lambda_{k,j}$ 。 模型从高到低把这 $N$ 个效用最高的方向占满。任务 $k$ 学到 $n_k(N)$ 个方向后，残差损失就是 $ℓk∗(N)=∑j>nk(N)λk,j\ell_k^*(N) = \sum_{j > n_k(N)} \lambda_{k,j}$ 。

这一个量同时把频率和复杂度装了进去：

频率高 → 效用高 → 先学；
任务内部，谱值大的主方向 → 先学；
又稀有（ $πk\pi_k$ 小）、又复杂（谱衰减慢、需要很多方向，连主方向 $λ\lambda$ 都不算大）→ 效用垫底 → 只有更大的模型才学得到。

附录 D 的"复杂度扫描"还给了一个反直觉的细节：当复杂度在任务间不一致时，学习顺序不再单纯由频率决定——一个"最复杂"任务的第三个模态，可能比一个更高频任务的高阶模态先被学会，导致相位边界出现非单调。也就是说，频率和复杂度必须一起看。

五、核心机制：Scaling 怎么"腾出手"去学稀有任务

只知道"低效用任务原则上可学"还不够。当一个任务出现得极其稀少（实验里有的只占 0.25%），还存在一个统计瓶颈。论文用两条结论把"宽度如何破局"讲清楚了。

(1) 常见任务被喂饱后，梯度会变弱（Theorem 4 + Corollary 5）。
设 $F$ 是常见 / 高频任务集合， $MF=∑k∈FπkCkM_F = \sum_{k \in F} \pi_k C_k$ ，残差信号 $δF(U)=Tr((I−PU)MF)\delta_F(U) = \mathrm{Tr}\big((I - P_U) M_F\big)$ 。常见任务的聚合梯度满足

$\|G_F(U)\|_F \le 2\sqrt{\lambda_1(M_F)\,\delta_F(U)}$

含义是：一组任务只能通过"当前表征还没解释掉的那部分协方差（残差 $δF\delta_F$ ）"来推动模型。一旦高效用的常见特征被学会，残差变小，它们的梯度也随之变弱——常见任务"不再抢资源"，富余的宽度就让给了稀有任务。 宽度越大，常见任务的残差被压得越小，腾出的空间越多。

(2) 稀有任务能否"稳住"，看它是否压得过常见任务里最弱的方向（Proposition 6）。
考虑一个稀有的秩一任务 $Cr=λrbrbr⊤C_r = \lambda_r b_r b_r^{\top}$ 。常见任务的解对方向 $b_r$ 稳定（学它不会让常见任务损失上升），当且仅当

$\pi_r \lambda_r < \mu_N^F, \qquad N_r^{\mathrm{crit}} := \min\{N : \mu_N^F \le \pi_r \lambda_r\}$

这里 $μNF\mu_N^F$ 是常见任务协方差第 $N$ 个特征值，也就是"被占用的最弱常见方向"。宽度增大会把 $μNF\mu_N^F$ 一路压低，直到低于稀有任务的效用 $πrλr\pi_r \lambda_r$ ，稀有特征才能稳定地"挤进来"。 反过来，如果稀有任务的效用比常见任务最弱方向还低，那就算它一时被学到，也会被常见任务的低阶模态反复替换掉。

记忆与遗忘的拉锯（update-and-forget）

第二点直接引出全文最有画面感的机制。附录 C.4 用一个单神经元、两任务的极简模型给出了闭式：当一次稀有更新之后紧跟 $G$ 步常见任务更新，稀有任务的对齐度近似

$\theta_G \approx (1 - 2\eta)^G \theta_0 \approx e^{-2\eta G} \theta_0$

稀有任务的对齐度随着两次观测之间的间隔 $G$ 指数衰减。 于是：

小模型：每次看到稀有样本会短暂学一点，但在下次样本到来前，被高频任务的更新冲回近零——陷入"学了又忘"的循环。
大模型：能在两次注入之间保留住大部分信号，并在下一次基础上继续累加，最终学会。

一个值得单独点名的实验设计：matched-frequency injection

怎么把"间隔"和"总频率"这两件事分开？作者设计了匹配频率注入：把稀有任务憋住 $G$ 步不出现，然后一次性注入一个放大的批次（ $\cdot B \cdot \rho_r$ 个样本），使得它的长期总频率在所有 $G$ 设置下完全一致。

这样一来，唯一变化的就是"观测之间的间隔"。结果非常干净：训练结束时，稀有任务信号随间隔 $G$ 单调衰减，对小模型衰减得尤其陡峭；而频繁任务信号几乎不受影响。 这种"控制变量"式的实验设计本身就很值得借鉴。

六、从玩具到真实：OLMo 4M→4B 的三层验证

理论再漂亮，也得在真实 LLM 上验证。作者用 OLMo 流水线训练了 4M、20M、300M、1B、4B 五个规模的模型，在 Dolma v1.7 上跑了约 50K 步（最多 210B token）。

难点在于：自然语料里"任务频率"几乎无法精确测量（同一个任务有无数表面形式）。他们借用了记忆研究里的数据注入框架：注入两个"特殊任务"（自然语料里基本不会出现），按可控频率掺进训练数据：

TCMP（比较）：给两个 token，预测哪个更大；
TADD（模加法）：预测 $100(\mathrm{val}(\text{TOK}_1) + \mathrm{val}(\text{TOK}_2)) \bmod 100$ 。

两者都编码成三个 token，各有 1 万个实例，五五开做训练 / 测试。关键是这两个任务都需要模型学到特定几何结构才能泛化，从而能区分"真学会"和"只背下来"。然后从三个层面验证：

① 行为层（Fig 5, 6）。 大模型学低频任务明显更好；任务按频率顺序被学会；更重要的是，大模型不是只把训练样本背下来（低 train loss），而是学到了可泛化的结构（高 eval accuracy）。在 TADD 上，只有"够大 + 够频繁"的组合才出现 grokking。匹配频率注入也复现了：间隔越大，任务 loss 越高，哪怕全局频率相同。

② 表征层（Fig 7）。 用 DAS（分布式对齐搜索）定位任务特征：TCMP 的"全局 token 顺序"可定位到第一层残差流里的一个一维子空间（干预成功率 96%）；TADD 的特征是 Fourier 模态。模型越大、训练频率越高，这些任务特征出现得越多、越快。

③ 梯度层（Fig 8, 9）。 把批次梯度分解成"任务 token 贡献"和"非任务 token 贡献"，再和任务参考方向 $g_r$ 算余弦相似度。结果很说明问题：1B 模型在注入步上 $g$ 与 $g_r$ 的相似度更高，而非任务梯度 $g_{nt}$ 几乎与 $g_r$ 正交（1B： $7.58 \times 10^{-5}$ ；20M： $0.10 \pm 0.09$ ）——大模型几乎没有干扰，小模型的"相似度"基本来自随机碰撞。

三个层面的证据，和玩具理论的预言一一对上。

七、作者们到底做了哪些独创性工作？

把贡献拎出来看，这篇文章的原创性集中在六点：

把"涌现"从现象学拉回到 Scaling Law 的地面：用现有幂律直接推出"无限数据也补不齐的硬上限"，并严格区分"数据可补"与"必须靠模型"两个区间——这是把直觉变成定义。
提出统一的效用排序规则 $\pi \times \lambda$ ：用一个量同时刻画频率与复杂度，给出"宽度到底买到了什么"的可计算答案。
给出机制，而不只是相关性：不是泛泛地说"容量大就好"，而是具体到"残差控制梯度强度 + 临界宽度决定稀有特征能否稳定占位"两条可证明的机制。
设计 matched-frequency injection：干净地把"频率"与"间隔"解耦，从而把"记忆 / 遗忘的拉锯"这件事单独测出来。
端到端的证据链：现象学论证 → 玩具线性回归（可解析）→ 合成实验 → 真实 OLMo 的行为 / 表征 / 梯度三层验证，跨越 4M 到 4B。
重新定位 memorization 的角色：把"背下来"从纯粹的坏事，重新理解为稀有任务走向泛化的前置条件——通过更长时间地保留实例，模型才能跨批次累积信号、最终抽象出可泛化结构。这与 Feldman 关于"长尾需要记忆"的论证、以及 grokking 的"先记忆后泛化"动力学一脉相承。

放进学术坐标看：它接续了 Bordelon / Maloney / Michaud 等人"用数据统计解释幂律"的动力学路线，但落点不同——别人关心"最终收敛到什么样的相位 / 函数形式"，这篇关心"通往那里的学习动力学"；它也和多任务 / 持续学习里的"梯度饥饿（gradient starvation）""灾难性遗忘"对话，但补上了"规模的作用"这一维度。

八、给工程师 / 炼丹师的启示

这部分是这篇论文真正能"落地"的地方。结合论文结论，可借鉴的点：

模型大小和数据频率，是可以相互替换的两个杠杆。 如果某个尾部能力模型学不会，你有两条路：放大模型，或者提高这个能力在数据里的频率。论文明确指出后者常常更省——“把目标任务的频率调上去，可能比把模型做大更高效”。对于预训练 / 微调的数据配比设计，这是直接可用的判断。
用"效用 = 频率 × 复杂度"的思维做数据配比。 又稀有又复杂的能力是最难、最晚学会的。如果你在意它，就必须主动抬高它的有效效用（提频）或抬高容量，而不能指望它"顺带"被学到。
样本"间隔"比"总量"更关键。 同样的总频率，把稀有重要样本聚集 / 重放（缩小间隔），比稀稀拉拉地铺开有效得多——这恰好为 replay / rehearsal / 课程学习提供了机制层面的理由。在持续学习、增量微调里，重要但稀少的样本被拉得太开，可能根本学不进去。
不要无脑反对 memorization。 论文提示：对尾部能力来说，"先记住实例"是"后泛化"的必经之路。这意味着过度去重、或过强的反记忆正则，可能反而伤害长尾能力的学习——隐私 / 防记忆诉求与尾部能力获取之间，需要权衡，而不是一刀切。
"模型学不会"要分三种病因，对症下药。 ① 表达能力不足（架构问题，得换结构）；② 样本效率不足（多喂数据就能追上）；③ 干扰 / 记忆瓶颈（要么加容量，要么提频，要么缩小间隔）。论文给了诊断工具（信号占比、梯度干扰），别一看到学不会就默认"得换更大的模型"。
梯度干扰是可测、可干预的。 "任务梯度之间的余弦相似度"是一个现成的诊断指标。如果非目标 token 的梯度在干扰你的目标方向，这就是容量在打架的信号。除了放大模型，gradient surgery / PCGrad / 正交梯度这类多任务方法是另一条路。
train loss 低 ≠ 学会了。 论文反复区分"记住训练样本（低 train loss）“和"学到可泛化结构（高 eval accuracy、表征里出现 Fourier 模态）”。评估一个能力是否真正习得，要看泛化和表征结构，别只盯训练损失。
当心 grokking 式的延迟泛化。 论文发现真实预训练里，稀有任务也会出现"先记忆后突然泛化"的动力学。所以针对尾部能力的训练，别太早杀实验——它可能在后期才"开窍"。
针对特定能力，算力分配要重新算。 附录 F.2 显示：学低频任务时，大模型在同等算力下反而更高效。也就是说，如果你的目标是某个尾部能力，它对应的 compute-optimal 模型尺寸，可能比"为大盘分布选的尺寸"更大。
方法论本身值得抄作业。 “构造一个可解析的玩具 → 推出可证明的预言 → 在真实系统多层验证”，这套范式适用于几乎任何想把"经验现象"讲成"机制"的研究或工程复盘。

九、局限与作者的诚实

这篇文章在 Limitations 里相当克制，这点值得肯定：

他们不认为规模是学会稀有任务的唯一机制——表达能力、样本效率与本文的"学习动力学"是互补而非竞争的解释，完整图景需要三者并存。
真实验证只做到 4B，没有验证更大规模或过度训练（over-trained）的模型，也没有覆盖极端频率区间。
注入任务是"匹配了 OLMo 预训练中任务频率"来选的，因此不能排除在极端频率下出现别的缩放行为。

换句话说，结论应被当作强有力的支持性证据，而不是对缩放的"完整解释"。

结语

这篇文章最大的价值，是把"模型越大越好"从一个黑箱经验事实，改写成了一个关于资源竞争、梯度干扰、记忆保留的可解释故事——并且顺手把球踢给了工程：原来在不买更多 GPU 的前提下，调数据频率、控样本间隔、用重放，也能撬动那些藏在分布尾部的能力。

对每天在配数据、调混合比、追某个迟迟学不会的能力的人来说，它提供的不只是一个解释，而是一组可以立刻去拨的旋钮。

论文：Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention，arXiv:2605.29548v2。文中图表编号沿用原文，建议配合原图阅读。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Agent 工程中的模型缓存优化经验分享

2048 AI社区

Spring AI 实战：从零实现 AI 对话的记忆与历史记录管理（附源码级解析）

2048 AI社区

CC-Switch不只是切换API：从GitHub更新日志看懂它的功能和底层原理

CC Switch：从配置切换器到AI编程统一管理平台摘要： CC Switch已从最初的Claude Code/Codex供应商切换工具，发展为功能全面的AI编程管理平台。它通过统一界面管理多个AI编程工具（Claude Code、Codex、Gemini CLI等）的配置，支持供应商切换、本地代理路由、跨工具能力同步等功能。核心演进包括：采用SSOT架构集中管理供应商数据、扩展支持6+工具、