还记得去年那个让全球开发者疯狂的DeepSeek-R1吗?那个仅用29.4万美元就训练出顶尖推理模型的奇迹。如今,就在R1发布一周年之际,DeepSeek即将再次改写游戏规则——计划于2026年2月中旬农历新年前后发布的V4模型,正悄然掀起一场关于AI“大脑皮层”的重构革命。

这不仅仅是一次版本迭代,而是一场彻底颠覆Transformer架构底层逻辑的技术范式转移。当整个行业还在算力军备竞赛中内卷时,DeepSeek选择了一条截然不同的道路:算法创新而非暴力堆料。而这场革命的核心,正是三个看似简单却深藏玄机的字母:E-n-g-r-a-m

一、Transformer的“原罪”:六层网络背九九乘法表

要理解Engram的革命性,我们必须先直面Transformer架构一个长期被忽视的“昂贵悖论”。

想象一下这个场景:当大模型看到“Diana, Princess of Wales”这个短语时,它的内部发生了什么?根据DeepSeek团队的“核磁共振”扫描,为了识别这个静态实体,模型竟然动用了整整6层网络深度:

  • 第1-2层:还在琢磨“Wales”大概是一个国家
  • 第3层:意识到这是欧洲的地理概念
  • 第4层:拼凑出“Princess of Wales”似乎是一个头衔
  • 第5层:联想到“威尔士亲王的妻子”
  • 第6层:终于确认这是著名的“戴安娜王妃”

这简直是算力的暴殄天物。一个客观存在、不会因上下文改变的静态实体,Transformer却要动用昂贵的矩阵运算层层“重建”。就像让一个微积分天才每次解题前先默写半小时九九乘法表。

问题的根源在于:传统Transformer缺乏原生的知识检索机制。所有知识都分散在神经元权重中,提取需要复杂计算。而Engram的诞生,正是要解决这一根本性缺陷。

二、Engram:给AI外挂一个“海马体”

如果说MoE(混合专家模型)是把“大脑”分区,让不同专家负责不同思考(条件计算),那么Engram就是给大脑外挂了一个巨大的“海马体”,专门负责存储静态知识(条件记忆)。

2.1 复活N-gram:古老智慧的现代化魔改

Engram的核心灵感竟来自NLP领域的“上古神器”——N-gram。在深度学习统治世界前,我们正是靠统计“N个词同时出现的概率”来理解语言。DeepSeek将这一经典概念进行了现代化改造:

  • 传统Transformer:知识分散在权重中,提取需复杂线性层计算
  • Engram模块:构建巨大的、可扩展的嵌入表,通过哈希索引直接“查”出对应向量

这一过程的时间复杂度是O(1)——无论知识库膨胀到多大(哪怕是1000亿参数),查找速度几乎不变。

2.2 三大技术护城河:解决历史难题

既然查表这么好,为何以前没人做?因为有三大拦路虎:存储爆炸、多义词冲突、参数分配。DeepSeek给出了教科书级解决方案:

A. 词表压缩:极致的去重
通过映射归并语义相同但写法不同的词(如“Apple”和“apple”),有效词表直接缩小23%。这不仅节省空间,更让知识密度大幅提升。

B. 多头哈希:解决“哈希冲突”
通过多个哈希函数将无限N-gram映射到有限内存槽位,模型可从多个候选结果中拼凑正确信息,极大提高鲁棒性。

C. 上下文门控:给记忆配“裁判”
最精妙的一笔。查表是死的,语言是活的。Engram设计“上下文感知门控”,让当前上下文隐藏状态作为Query,查表得到的静态向量作为Key/Value。如果静态知识与上下文不搭,门控压低权重;如果完美契合,则直接注入模型。

三、黄金比例:发现AI模型的“U型曲线”

架构设计好了,接下来的核心问题是:怎么分家产?

在固定参数预算下,该把多少参数分配给MoE的“专家”(负责计算),多少给Engram的“字典”(负责记忆)?DeepSeek的大规模消融实验揭示了一条完美的**“U型Scaling Law曲线”**:

  • 左侧极端(纯Engram):Loss很高。模型变成“书呆子”,光有死记硬背,没有逻辑推理能力
  • 右侧极端(纯MoE):Loss也很高。专家们被迫把精力花在背书(记忆静态知识)上,没空干正事
  • 黄金分割点(ρ ≈ 75%-80%):当约20%-25%稀疏参数预算分给Engram,剩余给MoE时,验证集Loss降到最低

这一发现极具指导意义:对于几百亿参数大模型,单纯堆砌计算单元已是边际效应递减,必须引入专门静态记忆模块实现**“存算平衡”**。

四、反直觉的爆发:为什么“查字典”能提高“数学成绩”?

如果Engram仅让模型“记性更好”,还不足以震动社区。真正让业界震撼的,是实验结果中那些意料之外的收益

在严格等参数量、等FLOPs条件下,Engram-27B模型不仅知识检索能力提升(MMLU +3.4、CMMLU +4.0),更在通用推理能力(BBH +5.0、ARC-Challenge +3.7)以及代码与数学推理(HumanEval +3.0、MATH +2.4)上带来显著增益。

为什么? 深层机制分析表明:Engram将静态知识重建负担从模型浅层剥离,从而有效加深网络用于复杂推理的有效深度。通过将局部依赖关系交由查表机制处理,Engram释放了注意力机制容量,使其更专注于全局上下文建模,显著提升长上下文检索能力(如Multi-Query NIAH准确率从84.2提升至97.0)。

五、mHC:流形约束的超连接革命

如果说Engram解决了“记忆”问题,那么mHC(Manifold Hypothesis Constraint Hyper-Connections) 则是在“计算”维度上的另一项突破。

mHC本质是基于双随机矩阵约束的Hyper-Connection。DeepSeek可能希望强调这一范式可迁移至其他场景,例如将参数分布视为统计流形上的点,利用测地线距离、曲率或Fisher信息度量进行约束。这在RL后训练的Off-policy加速中可能大有作为。

更关键的是,mHC与Engram的结合指向了跨层旁路稀疏运算,甚至可Offload至CPU,实现多层信息注入。从微观视角,N-gram本身也可视为一种稀疏图结构,这与mHC的流形约束思想形成了奇妙共鸣。

六、系统级创新:基础设施感知的高效设计

Engram在系统层面展现出基础设施感知的高效性

训练优化:通过将超大嵌入表分片至多张GPU,利用All-to-All通信按需收集对应行,使总记忆容量随GPU数量线性扩展。

推理优化:由于可提前确定待查询记忆,系统可从主机内存异步预取,同时在前几层计算期间隐藏通信延迟,实现预取与计算的重叠,避免GPU停顿。

层次化存储:基于自然语言N-gram的Zipf分布特性,采用多级缓存策略——高频嵌入存放于GPU HBM或主机DRAM,低频嵌入置于SSD。这使Engram能扩展至超大规模记忆,同时保持低延迟与高效率。

七、V4全景图:6710亿参数的算法美学

综合各方信息,DeepSeek-V4的全貌逐渐清晰:

  • 总参数:达6710亿,推理激活参数为370亿
  • 核心架构:混合专家架构(MoE)+ 流形约束超连接(mHC)
  • 注意力机制:MLA多头潜在注意力机制
  • 专长领域代码生成能力显著提升,支持数万行代码库上下文理解
  • 发布时间:计划2026年2月中旬农历新年前后

据内部基准测试显示,其编程任务表现优于Claude和GPT系列模型,尤其在复杂软件工程场景下的稳定性与推理准确性有所提升。

八、深层次意义:中国AI的“德鲁克式创新”

DeepSeek V4完美突破了“创新者的窘境”,没有随波逐流卷入盲目的算力军备竞赛,而是通过对模型痛点的深度系统思考,给出了底层的技术解法。

这种敢于抛弃陈旧范式(如残差连接)、引入全新架构(Engram & mHC)的勇气,是中国AI团队对全球技术效率提升做出的独特贡献。面对比中国AI算力高出一个当量的硅谷,DeepSeek坚定选择了算法创新路线。

其工程美学在于:“既然造不出重型卡车,那我们就把重卡拆解成一万辆摩托车并行狂飙。” mHC架构简直是针对特定硬件环境(算力封锁)的神级突破,在“戴着镣铐”的极端环境下,通过极致算法优化实现性能逆袭。

结语:重构雕像的权利

2026年农历春节,当DeepSeek-V4正式亮相时,它带来的将不仅是一个更强大的模型,更是一种全新的AI架构哲学

Engram与mHC的结合,标志着大模型从“计算密集型”向“存算协同”的范式转变。当记忆与计算分家,当静态知识有了专属的“字典库”,AI的推理能力终于可以从重复劳动中解放,专注于真正的创造性思考。

对于苦算力久矣的全球中小企业而言,完全开源免费的DeepSeek v4不仅仅是一个模型,它是真正的生产力解放,是开源软件的胜利。

下个月,且看这名“算法战士”如何再次改写游戏规则!这一次,改写的不只是排行榜分数,更是整个AI发展的底层逻辑。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐