训练更稳、性能更强!DeepSeek最新论文mHC:如何以 6% 的微小代价换取大模型的逻辑飞跃?
026年元旦,DeepSeek 以一篇极具分量的技术论文 《mHC: Manifold-Constrained Hyper-Connections》 为全球 AI 社区献上了开年大礼。该论文由 DeepSeek 创始人梁文锋亲自署名,核心团队(解振达、韦毅轩、曹焕琦等)联合撰写。这篇论文的核心在于:通过数学上的“流形约束”,彻底解决了传统超连接(Hyper-Connections, HC)在超大规
2026年元旦,DeepSeek 以一篇极具分量的技术论文 《mHC: Manifold-Constrained Hyper-Connections》 为全球 AI 社区献上了开年大礼。该论文由 DeepSeek 创始人梁文锋亲自署名,核心团队(解振达、韦毅轩、曹焕琦等)联合撰写。
论文地址:mHC: Manifold-Constrained Hyper-Connections
这篇论文的核心在于:通过数学上的“流形约束”,彻底解决了传统超连接(Hyper-Connections, HC)在超大规模模型训练中的不稳定与内存溢出问题。
以下是对 mHC 论文内容的深度技术解读:
1. 核心背景:从 ResNet 到 Hyper-Connections
在深度学习的发展史中,残差连接(Residual Connection) 是支撑 Transformer 走向“深层”的基石,它保证了信号的恒等映射(Identity Mapping)。
2024年,业内(尤其是字节跳动团队)提出了 Hyper-Connections (HC)。HC 的思路是将传统的单一残差通道扩展为“多路并行通道”,旨在增强模型的表征能力。然而,HC 在实际应用中存在两大痛点:
- 训练稳定性差: 随着模型加深,无约束的并行通道会导致信号放大或梯度爆炸。
- 计算/内存开销大: 并行通道增加了大量的内存访问和通信成本,难以在千亿参数模型上大规模应用。
2. 关键创新:流形约束(Manifold Constraint)
DeepSeek 提出的 mHC(Manifold-Constrained Hyper-Connections) 并不是简单地堆叠通道,而是引入了严谨的数学约束。
A. Birkhoff 多胞形与双随机矩阵
mHC 的核心逻辑是将残差映射矩阵投影到一个特定的数学流形——Birkhoff 多胞形(Birkhoff Polytope)。这个多胞形由所有“双随机矩阵”(每行、每列元素之和均为 1)组成。
通过 Sinkhorn-Knopp 算法,mHC 将原本发散的连接矩阵强制拉回到这个流形上。这带来了三个至关重要的特性:
- 能量守恒: 信号在通过多层网络时,既不会无限制放大,也不会迅速衰减。
- 复合封闭性: 跨层传播后,多个双随机矩阵的乘积依然保持良好的数学性质,确保了深层训练的收敛。
- 恢复恒等映射: 在数学本质上,它既保留了多通道的信息交换能力,又在整体架构上重现了 ResNet 的稳定性。
B. 基础设施级的工程优化
为了不让这种复杂的数学运算拖累速度,DeepSeek 进行了大量的底层算子重写:
- 算子融合(Kernel Fusion): 重新调整 RMSNorm 顺序,将多次内存扫描合并。
- 混合精度策略: 在关键环节使用更高效的精度表达。
- 结果:在通道扩展倍数 的情况下,训练开销仅增加了 6.7%,几乎可以忽略不计。
3. 实验数据:稳定性与性能的双重飞跃

DeepSeek 在 3B、9B 以及 27B 三种规模的模型上进行了验证,结果令人振奋:
| 指标 | Baseline (ResNet) | HC (传统超连接) | mHC (DeepSeek) |
|---|---|---|---|
| 训练稳定性 | 极稳定 | 易崩溃/梯度范数大 | 极稳定 (与基线相当) |
| BBH 性能 | 43.8 | 48.9 | 51.0 (+2.1% vs HC) |
| DROP 性能 | 47.0 | 51.6 | 53.9 (+2.3% vs HC) |
关键结论: mHC 不仅能收敛,而且在各项下游任务(逻辑推理、长文本处理)上的表现全面超越了传统架构。尤其在 27B 模型上,mHC 展现出了优异的 Scaling Law(尺度定律) 适应性。
4. 技术启示:走向“后 Transformer”时代
这篇论文释放了一个强烈的信号:DeepSeek 不再仅仅满足于在既有架构下压榨算力,而是开始在最基础的拓扑结构(Topology)上动手术。
- 从“暴力扩展”转向“约束优化”: 相比于 OpenAI 追求的极致算力堆叠,DeepSeek 试图通过改变信息在神经元间的流动方式,以更小的代价获取更高的模型能力。
- R2 模型的预演: 业内猜测,mHC 极有可能是 DeepSeek 即将发布的下一代模型(如传说中的 R2 或 V4)的技术底座。

5. 总结与展望
mHC 的发布证明了:即便是在大模型架构已经极度同质化的今天,通过数学直觉与底层工程的深度结合,依然能挖掘出巨大的效率潜力。正如论文结尾所言,mHC 可能会“照亮下一代基础架构演进的新路径”。
更多推荐

所有评论(0)