2026年元旦,DeepSeek 以一篇极具分量的技术论文 《mHC: Manifold-Constrained Hyper-Connections》 为全球 AI 社区献上了开年大礼。该论文由 DeepSeek 创始人梁文锋亲自署名,核心团队(解振达、韦毅轩、曹焕琦等)联合撰写。
论文地址:mHC: Manifold-Constrained Hyper-Connections在这里插入图片描述

这篇论文的核心在于:通过数学上的“流形约束”,彻底解决了传统超连接(Hyper-Connections, HC)在超大规模模型训练中的不稳定与内存溢出问题。

以下是对 mHC 论文内容的深度技术解读:


1. 核心背景:从 ResNet 到 Hyper-Connections

在深度学习的发展史中,残差连接(Residual Connection) 是支撑 Transformer 走向“深层”的基石,它保证了信号的恒等映射(Identity Mapping)。在这里插入图片描述

2024年,业内(尤其是字节跳动团队)提出了 Hyper-Connections (HC)。HC 的思路是将传统的单一残差通道扩展为“多路并行通道”,旨在增强模型的表征能力。然而,HC 在实际应用中存在两大痛点:

  • 训练稳定性差: 随着模型加深,无约束的并行通道会导致信号放大或梯度爆炸。
  • 计算/内存开销大: 并行通道增加了大量的内存访问和通信成本,难以在千亿参数模型上大规模应用。

2. 关键创新:流形约束(Manifold Constraint)

DeepSeek 提出的 mHC(Manifold-Constrained Hyper-Connections) 并不是简单地堆叠通道,而是引入了严谨的数学约束。
在这里插入图片描述

A. Birkhoff 多胞形与双随机矩阵

mHC 的核心逻辑是将残差映射矩阵投影到一个特定的数学流形——Birkhoff 多胞形(Birkhoff Polytope)。这个多胞形由所有“双随机矩阵”(每行、每列元素之和均为 1)组成。

通过 Sinkhorn-Knopp 算法,mHC 将原本发散的连接矩阵强制拉回到这个流形上。这带来了三个至关重要的特性:

  1. 能量守恒: 信号在通过多层网络时,既不会无限制放大,也不会迅速衰减。
  2. 复合封闭性: 跨层传播后,多个双随机矩阵的乘积依然保持良好的数学性质,确保了深层训练的收敛。
  3. 恢复恒等映射: 在数学本质上,它既保留了多通道的信息交换能力,又在整体架构上重现了 ResNet 的稳定性。

B. 基础设施级的工程优化

为了不让这种复杂的数学运算拖累速度,DeepSeek 进行了大量的底层算子重写:

  • 算子融合(Kernel Fusion): 重新调整 RMSNorm 顺序,将多次内存扫描合并。
  • 混合精度策略: 在关键环节使用更高效的精度表达。
  • 结果:在通道扩展倍数 的情况下,训练开销仅增加了 6.7%,几乎可以忽略不计。

3. 实验数据:稳定性与性能的双重飞跃

在这里插入图片描述

DeepSeek 在 3B、9B 以及 27B 三种规模的模型上进行了验证,结果令人振奋:

指标 Baseline (ResNet) HC (传统超连接) mHC (DeepSeek)
训练稳定性 极稳定 易崩溃/梯度范数大 极稳定 (与基线相当)
BBH 性能 43.8 48.9 51.0 (+2.1% vs HC)
DROP 性能 47.0 51.6 53.9 (+2.3% vs HC)

关键结论: mHC 不仅能收敛,而且在各项下游任务(逻辑推理、长文本处理)上的表现全面超越了传统架构。尤其在 27B 模型上,mHC 展现出了优异的 Scaling Law(尺度定律) 适应性。在这里插入图片描述


4. 技术启示:走向“后 Transformer”时代在这里插入图片描述

这篇论文释放了一个强烈的信号:DeepSeek 不再仅仅满足于在既有架构下压榨算力,而是开始在最基础的拓扑结构(Topology)上动手术。

  • 从“暴力扩展”转向“约束优化”: 相比于 OpenAI 追求的极致算力堆叠,DeepSeek 试图通过改变信息在神经元间的流动方式,以更小的代价获取更高的模型能力。
  • R2 模型的预演: 业内猜测,mHC 极有可能是 DeepSeek 即将发布的下一代模型(如传说中的 R2 或 V4)的技术底座。
  • 在这里插入图片描述

5. 总结与展望

mHC 的发布证明了:即便是在大模型架构已经极度同质化的今天,通过数学直觉与底层工程的深度结合,依然能挖掘出巨大的效率潜力。正如论文结尾所言,mHC 可能会“照亮下一代基础架构演进的新路径”。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐