打破深度学习“幻觉“,让AI真正学会“记忆“:Nested Learning新范式解析
本文介绍嵌套学习(Nested Learning)新范式,将模型、优化器和记忆视为多层级优化系统。基于此视角提出HOPE架构,模仿人脑多频率工作机制,实现真正的持续学习能力。实验证明,该架构在语言建模、长上下文推理等任务上全面超越现有模型,为构建能持续学习和成长的AI系统奠定基础。
本文介绍嵌套学习(Nested Learning)新范式,将模型、优化器和记忆视为多层级优化系统。基于此视角提出HOPE架构,模仿人脑多频率工作机制,实现真正的持续学习能力。实验证明,该架构在语言建模、长上下文推理等任务上全面超越现有模型,为构建能持续学习和成长的AI系统奠定基础。
一句话总结
嵌套学习(Nested Learning) 是一种全新的机器学习范式,它将模型、优化器和记忆统一看作多层级、并行的优化问题系统,每个组件按自身更新频率分层。基于这一视角,论文提出了 HOPE(Higher-Order Continuum Memory Processor)模块,模仿人脑多频率工作机制,实现了真正的持续学习能力,在语言建模、长上下文推理等任务上全面超越现有模型。
一、为什么需要这篇论文?
1.1 当前大模型的"失忆症"困境
想象一下,你每天和一个朋友聊天,但这个朋友每次见面都完全不记得之前的对话——这就是当前大语言模型(LLM)的真实写照。

嵌套学习核心概念
图1:人脑的多时间尺度更新机制是持续学习的关键。嵌套学习(NL)允许模型的每个组件按不同频率更新,而现有的Transformer架构实际上是两种极端频率的组合:注意力机制(频率∞,每个token都更新)和MLP块(频率0,预训练后冻结)。
当前LLM存在一个致命缺陷——顺行性遗忘症(Anterograde Amnesia):
| 问题 | 表现 |
|---|---|
| 知识冻结 | 模型的知识在预训练结束后即被冻结,无法从后续交互中真正学习 |
| 短期记忆有限 | 上下文窗口只能存储有限的即时信息 |
| 外部记忆治标不治本 | RAG等技术只是"随身带笔记本",模型本身并未成长 |
| 灾难性遗忘 | 持续学习时,新知识会覆盖旧知识 |
用一个生活化的比喻:现有的LLM就像一个失忆症患者,只能记住"出厂设置"(预训练知识)和"当前对话"(上下文),中间发生的一切都会被遗忘。
二、核心思想:从人脑获得启发
2.1 人脑的多时间尺度处理系统
人脑是持续学习的典范,这得益于两个关键机制:
脑电波的多频率协作
人脑的神经振荡(脑电波)按频率分为不同类型,各司其职:
| 脑电波类型 | 频率范围 | 主要功能 |
|---|---|---|
| Gamma波 | 30-150 Hz | 感知信息处理(最快) |
| Beta波 | 13-30 Hz | 主动思考、决策 |
| Alpha波 | 8-13 Hz | 放松、注意力调节 |
| Theta波 | 4-8 Hz | 记忆编码、学习 |
| Delta波 | 0.5-4 Hz | 记忆巩固(最慢) |
统一且可复用的结构
人脑具有惊人的可塑性——即使切除一半大脑(半球切除术),如果在童年进行,患者仍能过上相对正常的生活。这证明了大脑的统一架构:神经元不是专门服务于某一功能,而是可以灵活重新部署。
2.2 深度学习的"幻觉"
现有深度学习模型看似由不同类型的模块组成(注意力、RNN、MLP等),但论文揭示了一个惊人的事实:
❝
“我们观察到的架构异质性,实际上是因为缺乏嵌套学习的视角,导致我们只看到了优化问题的解,从而产生了深度学习架构的’幻觉’。”
换句话说,所有这些模块本质上都是前馈网络(MLP),只是在不同层级、不同时间尺度上被优化。
三、嵌套学习:统一的理论框架
3.1 核心定义:关联记忆
论文首先建立了一个关键概念——关联记忆(Associative Memory):
给定一组键 K ⊆ ℝ^{d_k} 和值 V ⊆ ℝ^{d_v},关联记忆是一个算子 M(·),将键映射到值。学习这种映射的过程是: M* = arg min_M L̃(M(K); V)
用通俗的话说:关联记忆就是学会"看到A就想到B"的能力。

嵌套学习范式
图2:嵌套学习范式将机器学习模型表示为一组嵌套的优化问题。(左)混合架构示例:深度学习视角只能看到扁平的结构,而NL透明地展示了所有内部梯度流。(右)神经学习模块:一个学习如何压缩自身上下文流的计算模型。
3.2 从简单例子理解嵌套学习
例1:用梯度下降训练MLP
当我们用梯度下降训练一个单层MLP时,权重更新公式是:
W_{t+1} = W_t - η_{t+1} · ∇_W L(W_t; x_{t+1})
论文指出,这个过程可以重新理解为:
❝
“训练一个线性层就是在学习一个关联记忆,将输入数据映射到其预测的’惊讶程度’(即预测误差)。”
例2:动量优化器是两层嵌套
当使用带动量的梯度下降时:
W_{t+1} = W_t - m_{t+1}m_{t+1} = m_t + η_{t+1} · ∇_W L(W_t; x_{t+1})
这实际上是一个两层嵌套的优化过程:
- 内层:动量项
m学习压缩过去的梯度 - 外层:使用动量来更新权重
3.3 更新频率:嵌套学习的核心
论文引入了更新频率的概念来组织不同组件:
定义:对于任意组件A,其频率 f_A 定义为每单位时间的更新次数。
基于更新频率,可以将组件排列成有序的"层级":
- 同一层级的组件具有相同的更新频率
- 层级越高,更新频率越低
关键洞察:现有的Transformer架构实际上只有两个极端层级:
- 注意力机制:频率 = ∞(每个token都更新)
- MLP块:频率 = 0(预训练后冻结)
这解释了为什么Transformer难以持续学习——它缺少中间频率的层级!
四、优化器也是学习模块
4.1 Adam是最优的关联记忆
论文的一个惊人发现是:常见的优化器(如Adam、SGD with Momentum)本质上都是关联记忆模块,它们在压缩梯度信息。
以Adam为例,其更新规则可以分解为:
m_t = β₁ m_{t-1} + (1-β₁) g_t # 一阶动量v_t = β₂ v_{t-1} + (1-β₂) g_t² # 二阶动量θ_t = θ_{t-1} - η · m_t / (√v_t + ε) # 参数更新
论文证明:Adam是L2回归目标下的最优关联记忆——它学习将梯度映射到其方差。

优化器状态空间
图3:使用标准动量和Delta动量优化函数ψ(r,θ)的对比。Delta动量由于其依赖梯度的权重衰减,能够更快找到解。这展示了将优化器视为关联记忆后,可以设计出更高效的更新规则。
4.2 优化器的"长上下文"问题
现有动量设计存在一个关键限制:它只是一个低通滤波器,无法记住长期历史。
以β=0.9为例:
- 最近6个梯度贡献了50%的信息
- 最近43个梯度贡献了99%的信息
- 更早的梯度几乎没有影响
这在持续学习场景下会导致灾难性遗忘:当模型学习新任务时,优化器会"忘记"旧任务的梯度方向。
4.3 更具表现力的优化器设计
基于嵌套学习视角,论文提出了多种增强优化器的方法:
| 扩展方向 | 方法 | 效果 |
|---|---|---|
| 更具表现力的关联 | 添加值参数 | 允许更复杂的键-值映射 |
| 更具表现力的目标 | 使用L2回归代替点积 | 更好的记忆管理 |
| 更深的记忆 | 用MLP替代线性层 | 更大的压缩容量 |
| 高阶特征映射 | 多项式核 | 增强记忆容量 |
| 非线性输出 | Newton-Schulz正交化 | 更好的梯度方向 |
五、现有架构的统一视角
5.1 所有架构都是关联记忆
论文展示了如何将各种现代架构统一为关联记忆:
Softmax注意力
M* = arg min_M Σᵢ s(kᵢ, q) ||vᵢ - M||² = Σᵢ [s(kᵢ, q) / Σⱼ s(kⱼ, q)] vᵢ
这是L2回归目标的非参数解(Nadaraya-Watson估计器)。
线性注意力(Hebbian规则)
M_t = α_t M_{t-1} + η_t · v_t k_t^T
这是点积相似性目标的梯度下降解。
Delta规则(如DeltaNet)
M_t = (I - η_t k_t k_t^T) M_{t-1} + η_t · v_t k_t^T
这是L2回归目标的梯度下降解,具有更好的记忆管理。
5.2 MLP与线性注意力的统一

MLP vs 线性注意力
图4:比较Transformer中的FFN(MLP)与线性注意力。红色组件在第一层级(频率1,预训练时更新),蓝色组件在第二层级(频率L,上下文内更新)。带可学习初始状态的线性注意力(Linear Attention++)本质上就是具有上下文学习能力的MLP层。
论文揭示了一个深刻的联系:
❝
“线性注意力(带可学习初始状态)与MLP的唯一区别是:MLP在第一层级(预训练后冻结),而线性注意力在第二层级(上下文内更新)。”
这意味着:现有的"混合架构"(如Samba)实际上就是给部分MLP块添加了上下文学习能力!
六、重新理解常见概念
6.1 预训练就是超长上下文学习
从嵌套学习视角:
❝
“预训练只是上下文学习的一个实例,其中’上下文’是整个预训练数据集。”
这解释了为什么更多层级可以带来更好的持续学习能力——它们允许知识在不同时间尺度间传递。
6.2 上下文学习的本质
上下文学习不是"涌现能力",而是拥有多个嵌套层级的直接结果:
- Transformer的上下文学习:来自注意力机制作为非参数解
- 现代循环模型的上下文学习:来自参数化的记忆更新
6.3 没有训练/测试的边界
在嵌套学习框架下:
❝
“对于神经学习模块,不存在训练时间和测试时间的明确边界。模型只有两种状态:接收输入时,或作为孤立系统时。”
七、HOPE:持续学习的新架构
7.1 连续记忆系统(CMS)
基于上述理论,论文提出了连续记忆系统(Continuum Memory System, CMS)——一种多时间尺度的记忆架构。
核心思想:用一组不同更新频率的MLP块组成链式结构,取代传统的单一MLP。
输出:y_t = MLP^{f_k}(MLP^{f_{k-1}}(...MLP^{f_1}(x_t)))更新规则:θ^{f_ℓ}_{i+1} = θ^{f_ℓ}_i - { Σ_{t=i-C^{ℓ}}^{i} η_t · f(θ_t; x_t) 如果 i ≡ 0 (mod C^{ℓ}) 0 否则}
其中 C^{ℓ} 是第ℓ层的更新周期(chunk size)。
三种CMS变体:
| 变体 | 知识传递方式 | 特点 |
|---|---|---|
| 嵌套式 | 每层初始状态由上一层元学习 | 高阶上下文学习 |
| 顺序式 | 所有初始状态通过反向传播连接 | 共享持久知识 |
| 独立式 | 各层独立,输出聚合 | 并行处理 |
7.2 为什么CMS能防止遗忘?
CMS的设计形成了一个知识循环:
- 当高频层
MLP^{f_s}更新时,可能会遗忘某些知识 - 但这些知识仍存储在低频层
MLP^{f_{s'}}中(s’ < s) - 通过反向传播的知识传递,知识可以从低频层"循环回"高频层
- 结果:重要知识很难被真正遗忘
7.3 HOPE架构
HOPE = 自修改序列模型 + 连续记忆系统

Hope vs transformer
图5:HOPE与Transformer架构对比。HOPE通过多频率的连续记忆系统(CMS)替代传统的单一MLP,实现了真正的持续学习能力。
HOPE的工作流程:
- 分层初始化:实例化k个MLP块,频率从低到高
- 频率驱动的分段输入:按不同粒度切分输入序列
- 前向计算:数据流经CMS链(慢层→快层逐级精炼)
- 嵌套梯度压缩:各层将误差视为"键",参数视为"值",进行关联记忆更新
- 自指参数修正:最快层即时微调自己的更新规则
- 循环推进:慢层偶尔激活,将新信息蒸馏到长期记忆
八、实验结果
8.1 语言建模与常识推理
论文在多个基准上评估了HOPE,结果显示其全面超越现有模型:
| 模型 | Wiki PPL↓ | LAMBADA PPL↓ | 常识推理平均↑ |
|---|---|---|---|
| Transformer++ | 17.92 | 17.73 | 53.38 |
| Samba (混合) | 16.15 | 13.21 | 54.46 |
| RWKV-7 | 18.44 | 15.96 | 55.30 |
| Titans | 15.60 | 11.41 | 56.82 |
| HOPE | 14.39 | 10.08 | 58.04 |
表1:1.3B参数/100B tokens训练的模型性能对比。HOPE在所有指标上都取得最佳结果。
8.2 长上下文理解(NIAH任务)

BABILong基准
图6:BABILong基准测试结果。红色点是微调模型的结果,蓝色点是大模型的零样本结果。HOPE在10M上下文长度仍保持良好性能,远超其他模型。
| 模型 | 4K | 8K | 16K |
|---|---|---|---|
| Transformer | 88.6 | 76.4 | 79.8 |
| RWKV-7 | 100 | 100 | 99.6 |
| Titans | 100 | 100 | 100 |
| HOPE | 100 | 100 | 100 |
表2:单针检索任务(S-NIAH-1)性能对比。
关键发现:
- HOPE在10M token的超长上下文中仍保持良好性能
- 对比之下,GPT-4在128K-256K后性能急剧下降
- Titans和ARMT在1M后性能快速衰减
8.3 持续学习:学习新语言

持续翻译任务
图7:持续翻译新语言(CTNL)任务。红色点是单语言结果,蓝色点是持续学习场景结果。HOPE-3几乎恢复了非持续学习场景下的ICL性能,展示了其强大的抗遗忘能力。
论文设计了一个挑战性任务:模型需要顺序学习两种新语言(Manchu和Kalamang),然后翻译成英语。
结果显示:
- ICL(基线):在持续学习场景下性能急剧下降(灾难性遗忘)
- HOPE-3:几乎恢复了非持续学习场景下的ICL性能
8.4 类增量学习
图8:CLINC数据集上的类增量学习结果。HOPE增强的架构在所有持续学习方法中取得最佳准确率。

类增量学习-Banking
图9:Banking数据集上的类增量学习结果。

类增量学习-DBpedia
图10:DBpedia数据集上的类增量学习结果。
在CLINC、Banking、DBpedia三个数据集上,HOPE都超越了:
- 简单的上下文学习(ICL)
- 弹性权重巩固(EWC)
- 带外部学习器的上下文持续学习(InCA)
8.5 记忆层级的影响

记忆层级影响-NIAH
图11:记忆层级数量对NIAH任务性能的影响。更多层级带来更好的长期记忆和长上下文理解能力。

记忆层级影响-QASPER
图12:记忆层级数量对QASPER任务性能的影响。

记忆层级影响-LongHealth
图13:记忆层级数量对LongHealth任务性能的影响。
实验发现:
- 更多层级 → 更好的上下文学习
- 最低频率越高 → 适应性越强但长期记忆越弱
- 最低频率=2K是一个好的平衡点(效率vs性能)
8.6 上下文长度消融

上下文长度消融
图14:不同上下文长度下的性能消融实验。HOPE在各种上下文长度下都保持稳定的性能。
8.7 M3优化器
论文还提出了**Multi-scale Momentum Muon (M3)**优化器,将CMS思想应用于优化器设计:

优化器对比-24M
图15:24M参数ViT在ImageNet-21K上的训练/测试损失,使用不同优化器。M3在训练和测试损失上都优于AdamW和Muon。

优化器对比-86M
图16:86M参数ViT在ImageNet-21K上的训练/测试损失。M3展示了更好的收敛性和泛化能力。
图17:不同优化器的训练时间对比。M3在保持高性能的同时,训练效率也具有竞争力。
九、消融研究
论文进行了详细的消融研究,验证HOPE各组件的重要性:
| 变体 | Wiki PPL | 常识推理 |
|---|---|---|
| HOPE(完整) | 14.39 | 58.04 |
| - Delta梯度下降 → 普通GD | 15.12 | 56.89 |
| - 移除动量 | 15.45 | 56.21 |
| - 移除权重衰减 | 14.98 | 57.12 |
| - 移除CMS | 15.60 | 56.82 |
每个组件都对最终性能有贡献,其中CMS的贡献最为显著。
十、深入思考与启示
10.1 理论意义
- 统一视角:嵌套学习提供了一个统一的数学框架,解释了深度学习本质上是压缩上下文流的优化过程
- 打破幻觉:揭示了看似不同的架构(注意力、RNN、MLP)本质上都是同一种结构
- 优化器即学习器:证明了优化器本身也是关联记忆,为设计更好的优化算法提供了新思路
10.2 工程价值
- 解决灾难性遗忘:CMS设计通过多频率更新和知识循环,有效缓解了遗忘问题
- 超长上下文:HOPE能够处理10M+ token的上下文,远超现有模型
- 架构设计指导:提供了设计持续学习模型的系统性方法论
10.3 生物启发
HOPE的设计高度符合神经科学中的多尺度可塑性原理:
- 不同频率的脑波控制不同脑区的更新
- 快速突触巩固 + 慢速系统巩固
- 分布式记忆系统
10.4 未来方向
- 架构特定优化器:既然架构生成优化器的上下文(梯度),不同架构可能需要不同的优化器
- 更多层级探索:目前实验主要使用3-4个层级,更多层级可能带来更强的能力
- 真正的终身学习:向不依赖训练/测试阶段划分的模型发展
总结
《Nested Learning》是一篇具有里程碑意义的论文,它:
- 提出了嵌套学习范式:将模型、优化器、记忆统一为多层级优化系统
- **揭示了深度学习的"幻觉"**:所有架构本质上都是不同频率更新的前馈网络
- 设计了HOPE架构:通过连续记忆系统和自修改机制,实现真正的持续学习
- 取得了SOTA性能:在语言建模、长上下文、持续学习等任务上全面超越现有模型
最重要的是,这篇论文为构建真正能够持续学习、不断成长的AI系统奠定了理论和技术基础。正如论文开篇引用爱因斯坦的话:
❝
“我们无法用创造问题时的思维来解决问题。”
嵌套学习正是这样一种全新的思维方式——它不是在现有框架内修修补补,而是从根本上重新思考机器学习模型应该如何设计。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

更多推荐
所有评论(0)