全面超越Transformer！谷歌发布嵌套学习(NL)：让大模型实现持续学习的革命性突破！

传统大语言模型(LLMs)是静态系统，无法持续学习新知识。谷歌提出嵌套学习(NL)新范式，将模型结构理解为一系列优化问题的组合。基于NL，研究者开发了深度优化器、自修正Titans和持续体记忆系统(CMS)，构建了HOPE学习模块。实验表明，HOPE在语言建模、持续学习和长上下文推理等任务中表现优异，为实现具备持续学习能力的下一代大模型提供了可行路径。

Python蛋挞

175人浏览 · 2025-12-10 15:03:35

Python蛋挞 · 2025-12-10 15:03:35 发布

简介

近年来，尽管大语言模型（LLMs ）在规模和性能上取得显著进展，其本质仍是静态系统——一旦预训练结束，参数即固定不变，无法持续学习或积累新知识。目前，LLMs 唯一具备的适应性能力是上下文学习，使其能在不更新参数的情况下通过提示完成零样本或少样本任务。然而，这种能力受限于有限的上下文窗口，且无法将新经验转化为长期记忆。为突破这一瓶颈，现有研究尝试了微调、外挂记忆模块等方法，但往往面临计算开销大、泛化能力弱或灾难性遗忘等问题，暴露出当前“堆叠Transformer层”范式的根本局限。

针对这一挑战，**谷歌提出一种全新的学习范式——嵌套学习（Nested Learning, NL）。NL 将模型结构理解为一系列优化问题的组合：这些问题可能以嵌套、多层级或并行的方式组织，且每个子问题均具备独立的“上下文流”。**基于 NL，贡献三大核心成果：深度优化器（Deep Optimizers）、自修正Titans（Self-Modifying Titans）和持续体记忆系统（Continuum Memory System，CMS）。进一步，将自修正Titans与持续体记忆系统结合，研究者构建了名为 HOPE 的学习模块。实验表明，HOPE 在语言建模、持续学习和长上下文推理等任务中展现出显著优势，为实现真正具备持续学习能力的下一代大模型提供了可行路径。该成果已收录至NeurIPS 2025。

论文题目：

Nested Learning: The Illusion of Deep Learning Architecture
论文链接：

https://abehrouz.github.io/files/NL.pdf

一、方法

图1 传统深度学习与嵌套学习

嵌套学习范式将机器学习模型及其训练过程表示为一组嵌套的优化问题。如图1左图所示，以一种混合架构为例：从传统深度学习的视角来看，无法揭示各模块内部计算的深度层次；而 NL 则能透明地展现所有内部的梯度流动，如图1右图所示，神经学习模块是一种能够自主学习如何压缩自身上下文流（context flow）的计算模型。以该模块的层级结构为例，其最外层对应模型的整体训练循环，通常指预训练阶段。

（1）嵌套学习

1）关联记忆

包括优化器和神经网络在内的系统，本质上都是关联记忆系统（associative memory systems），它们通过压缩自身的上下文流（context flow）来工作。给定一组键

**定义1：关联记忆是一个映射算子 M:K→V，它将键集合 K 映射到值集合 V。**为了从数据中学习这种映射，需定义一个目标函数来衡量映射的质量，从而可将 M 形式化为：

研究者证明从最简单的 MLP 到复杂架构，深度学习的训练过程均可解构为多层级关联记忆的嵌套优化，而“学习”本质上就是对上下文流的分层压缩与映射。

2）嵌套优化

在上一节表明一个机器学习模型可以分解为一组嵌套的或多层级的优化问题。接下来，首先对嵌套学习问题给出形式化表述，并进而定义神经学习模块（Neural Learning Module）。

尽管可以将模型分解为一系列优化过程，但尚不清楚是否能够在这组优化问题之上定义一个明确的顺序，从而以该形式唯一地表示整个模型。研究者提出：依据每个优化问题的更新速率来对各组件进行多层级排序，将对单个数据点执行一次更新步（update step）设为时间的基本单位，并据此定义每个组件的更新频率如下：

定义2：对于任意组件 A ，无论是参数化组件（例如可学习权重，或带动量梯度下降中的动量项），还是非参数化组件（例如注意力模块），将其频率记为 fA ，即该组件在单位时间内所执行的更新次数。

基于更新频率，定义了一个排序关系（≻）来组织机器学习模型中的各个组件：若组件 A 的更新频率高于 B，或两者频率相同但B 的计算依赖于 A，则称 A ≻ B；若两者互不依赖且频率相同，则视为同频独立。

据此，所有组件被划分为多个有序层级——同一层级内组件更新频率一致，层级越高，更新越慢。重要的是，每个组件都对应一个独立的优化问题和专属的上下文（或梯度）流，既适用于参数化模块（如权重、动量），也兼容非参数化结构（如注意力机制），从而为嵌套学习提供了统一的层级化建模基础。

3）优化器作为学习模块

带动量的梯度下降可被重新诠释为一个两层嵌套优化问题：内层通过梯度下降将历史梯度压缩至动量参数中，外层则利用该动量更新模型权重。

基于此视角进行扩展：通过改变关联记忆的映射目标、损失函数和记忆模块结构，可以系统性地设计出更强大的优化器：

扩展关联：将动量从“无值”记忆（只记忆梯度方向）改为“Key-Value”记忆（例如，学习将梯度映射到预条件矩阵P），这自然引出了预条件动量梯度下降。
扩展目标函数：将内部目标从点积相似度改为L2回归损失，使记忆模块能更有效地管理其有限容量，更好地记忆梯度序列（遵循Delta规则）。
扩展记忆结构：将线性的动量矩阵替换为多层感知机（MLP）等非线性模块，从而大幅提升其学习和捕获梯度动态关系的能力，得到深度动量梯度下降（DMGD）。
引入非线性输出：在动量模块的输出端增加非线性激活函数（如牛顿-舒尔茨迭代），可以进一步增强其表达能力，此类变体即等效于Muon优化器。

最后，将整个预训练或反向传播过程本身也视为一个关联记忆问题：通过将内部目标从点积相似度替换为 L2 回归，显式建模数据点之间的依赖关系，从而导出一种新的梯度下降变体，为后续 HOPE 架构中的内层优化器奠定基础。

（2）HOPE：一种具有持续体记忆的自指学习模块

图3 Hope架构与Transformer的比较（为清晰起见，已移除归一化和潜在的数据相关组件）

现有的主流架构主干通常包含两个部分：

工作记忆模块（例如注意力机制），负责在序列长度维度上主动融合信息；
前馈层（例如 MLP），用于在特征维度上融合信息，并作为预训练阶段的持久记忆或知识存储。

从嵌套学习（NL）的视角来看，预训练对应于学习模块最外层在其有限上下文流上的更新过程。因此，在连续学习场景中，这一预训练阶段极少随时间更新，其对应的知识存储也应极少被修改。

基于这一认识，研究者拓展了传统的“长期/短期记忆”二分观点，提出为每个层级配备一个专属的知识存储前馈模块。

1）连续记忆系统

基于更新频率的定义，连续体记忆系统（被形式化为一个由多层MLP模块构成的层级链：

其中每个模块都与一个大小为1,…,xT}，系统的输出通过逐层前馈计算得到（为简洁起见省略归一化）：

每个模块的参数，并非每步更新，而是每隔步进行一次聚合式更新：

其中为对应学习率，f(⋅) 表示任意优化器的误差信号。

每个参数集通过在其更新周期内压缩上下文信息，逐步编码出对应时间尺度下的抽象知识。高频模块快速响应局部模式，低频模块则稳定积累长期规律，从而在架构层面实现了对多尺度记忆的显式建模。

2）自修正Titans

该模块将输入 xt通过线性投影分别生成键（key）、值（value）、查询（query）、学习率和遗忘门，统一构建于关联记忆范式之上。

进一步，在嵌套优化框架下，各投影由可学习的记忆模块动态生成：

并引入记忆存储模块 Mmem 以支持基于查询的历史 key-value 检索：

这相当于一个动态的注意力机制或外部记忆系统。

然后，每个记忆模块不仅生成自己的Key或Query，还生成自己的Value —— 这是“自指”（self-referential）的核心体现。

每个记忆模块不仅从输入生成Key或Query，还能以其自身输出的Value vt为输入，进一步生成修正后的值，从而实现自指式的学习与更新。

最后，为了优化这些记忆模块，使用带权重衰减的梯度下降（DGD with weight decay），更新规则如下：

综上，研究者基于 Titans 和梯度下降变体，提出自指序列模型。将该模型与连续体记忆系统相结合，便构成了 HOPE 架构。

二、评估

表1 HOPE 与基线模型在语言建模及常识推理任务上的性能表现（带 * 标注的为混合模型）

在语言建模及常识推理任务中，HOPE 在所有模型规模和基准任务上均展现出优异的性能，全面超越了 Transformer 以及近期先进的循环神经网络（包括 Gated DeltaNet 和 Titans）。与 Titans 和 Gated DeltaNet 相比，HOPE 通过根据上下文动态调整Key、Value和Query的投影，并结合深度记忆模块，实现了更低的困惑度和更高的基准任务准确率。

图7 模型记忆层级数量对其上下文学习性能的影响

如图 7 所示。无论采用多少记忆层级，也无论最低更新频率如何设置，HOPE 均优于 ICL 基线和 DuoAttention 方法。此外，通过对比 HOPE 的不同变体，结果表明：更多的记忆层级有助于提升模型的上下文学习能力，并增强其长期记忆能力，从而改善对长上下文的理解；最低更新频率越高，模型性能反而越低。

研究团队结合MTOB和 Manchu两个基准，设计了一项名为“新语言的持续翻译”（CTNL）的新任务：大语言模型需在上下文中依次学习两种低资源语言（Manchu 和 Kalamang），并将其短语翻译成英语。实验包含两种设置：一是独立学习每种语言作为基线（红色），用于衡量灾难性遗忘；二是顺序学习两种语言后再测试（蓝色）。以标准 ICL 为对照，构建了 HOPE-1/2/3 三种变体，分别引入 1 至 3 个额外记忆层级。

如图8所示，在非持续学习设置下，所有 HOPE 变体性能均优于或持平于 ICL；而在持续学习设置中，ICL 因严重灾难性遗忘而大幅退化，HOPE 则随记忆层级增加显著提升性能——其中 HOPE-3 几乎完全恢复了其在非持续学习下的最佳表现。这充分验证了连续体记忆系统（CMS）在支持模型适应新任务并有效保留上下文知识方面的关键作用。

三、如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈，帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

C++ 中traits 类模板（type traits / customization traits）设计技术深度详解

是一把强大的工具：把类型相关信息/策略移到可特化的模板类里，从而实现编译期可定制、无虚函数开销的多态/策略分发。结合 detection idiom // concepts，可以做到既灵活又安全。最佳实践：提供安全默认、文档化接口、使用表达检测避免脆弱的检测、在需要时用concepts提升可读性和错误信息。