DeepSeek革命性条件记忆架构详解：让大模型更高效调用知识的新维度！

DeepSeek与北京大学共同提出条件记忆(Conditional Memory)及Engram记忆检索架构，通过可学习的知识嵌入和检索机制，显著提升大模型在知识调用、推理、代码等任务表现。实验证明，Engram能增加模型有效深度，加速预测收敛，且对推理效率影响微小，为大模型优化提供了新思路。

健忘的派大星 · 2026-01-15 08:45:00 发布

DeepSeek 于 12 日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》（基于可扩展查找的条件记忆：大型语言模型稀疏性的新维度）。

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

该论文为北京大学与 DeepSeek 共同完成，合著作者署名中出现梁文锋。

论文提出条件记忆（conditional memory），通过引入可扩展的查找记忆结构，在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现。同时，DeepSeek 开源相关记忆模块 Engram。

那么这次 DeepSeek 提出「条件记忆」及 Engram 记忆检索架构有哪些亮点？

当前的 LLM 需要依靠计算来模拟知识检索，这导致模型需要在早期层中消耗大量计算资源来重建静态知识，从而浪费了宝贵的模型深度和计算能力。

针对这个问题，论文提出了一种实时知识检索的方法，来减轻模型依靠计算来模拟知识检索产生的负担。

a.整体方法介绍

论文在原有 transformer 架构上增加了一个 Engram 模块，其核心是可学习的知识嵌入，以及相应的知识检索和上下文融合机制。

给定当前序列，在预测下一个 token 前，使用当前序列的最后几个 gram 作为查询，这几个 gram 经过多个哈希头进行哈希计算之后，检索出对应的知识嵌入向量。这些被检索到的知识嵌入向量被动态地融合进上下文当中。

b.具体实现细节

左图：当总参数量一定时，知识嵌入-主模型参数分配比例与验证损失的关系。

右图：模型主参数不变，扩增知识嵌入参数量，可以显著降低验证损失。（无痛scaling）

加速预测收敛：

分析方法：使用 LogitLens 工具，通过计算每一层隐藏状态与最终输出分布之间的 Kullback-Leibler 散度（KL 散度），来衡量每一层的预测置信度。
结果：Engram 模型在早期层的 KL 散度显著低于 MoE 基线模型，表明 Engram 模型能够更快地完成特征组合，更早地达到高置信度的预测结果。
结论：Engram 通过显式的知识检索能力，减少了模型早期阶段的计算步骤，从而加速了预测收敛。

表示对齐与有效深度：

分析方法：使用 Centered Kernel Alignment（CKA）分析 Engram 模型与 MoE 模型各层之间的表示结构相似性。
结果：Engram 模型的早期层（如第 5 层）的表示与 MoE 模型的深层（如第 12 层）表示高度相似，呈现出明显的“向上偏移”。
结论：Engram 通过显式的知识检索，跳过了早期的静态特征组合任务，使得模型在更浅的层次上就能达到与 MoE 模型深层相似的表示，从而有效地增加了模型的有效深度。

内存注入的最佳位置：

实验设计：在 3B MoE 模型中插入 Engram 模块，固定参数预算（1.6B），改变 Engram 的插入位置（从第 1 层到第 12 层）。
结果：Engram 在第 2 层插入时表现最佳（验证损失最低）。将 Engram 分成两个模块分别插入第 2 层和第 6 层时，性能进一步提升。
结论：早期注入 Engram 可以更有效地卸载静态模式的重建任务，但过早注入会导致上下文信息不足，影响门控机制的精度。因此，最佳位置需要在早期干预和上下文信息之间进行权衡。

关键组件的重要性：

敏感性分析：

实验设计：在推理过程中完全抑制 Engram 模块的输出，观察模型在不同任务上的表现。
结果：在事实知识任务中，性能大幅下降（如 TriviaQA 只保留 29% 的性能），而在阅读理解任务中，性能几乎不受影响（如 C3 保留了 93% 的性能）。
结论：Engram 主要负责存储和检索事实知识，而阅读理解任务更多依赖于模型的注意力机制和上下文理解能力。

系统效率：

案例研究：门控可视化

分析方法：可视化 Engram 模型在不同样本上的门控标量（α），观察其对静态模式的激活情况。
结果：Engram 在识别多词实体（如“Alexander the Great”）和固定短语（如“By the way”）时表现出强烈的激活，表明其成功地识别并检索了这些静态模式。
结论：Engram 的上下文感知门控机制能够动态地调节检索到的静态知识与动态特征的融合，有效减轻了 Transformer 主干网络的负担。