DeepSeek 新年炸场！梁文锋领衔发布 mHC 架构，彻底解决大模型训练“炸机”难题

DeepSeek发布mHC架构解决大模型训练不稳定难题 2026年1月1日，DeepSeek创始人梁文锋领衔发布《流形约束超连接》(mHC)论文，针对大模型训练中的梯度爆炸等不稳定问题提出创新解决方案。mHC通过数学方法将超连接空间投影到特定流形，在保持高性能的同时恢复恒等映射特性，仅带来6.7%的额外计算开销。该技术被形象比喻为"智能导航系统"，可有序引导数据流传递，显著提升

主理人猫头虎微信: Libin9iOak

661人浏览 · 2026-01-02 18:26:51

主理人猫头虎微信: Libin9iOak · 2026-01-02 18:26:51 发布

DeepSeek 新年炸场！梁文锋领衔发布 mHC 架构，彻底解决大模型训练“炸机”难题

2026年1月1日，DeepSeek 给 AI 圈投下了一颗重磅“炸弹”。创始人梁文锋亲自署名，发布最新论文《流形约束超连接》，直指大模型训练中的核心痛点——训练不稳定性。这一新架构有望成为继 ResNet 之后的又一座里程碑。

文章目录

DeepSeek 新年炸场！梁文锋领衔发布 mHC 架构，彻底解决大模型训练“炸机”难题

01 前言：大模型训练的“阿喀琉斯之踵”

在深度学习领域，模型规模的不断扩大伴随着训练难度的指数级上升。自 2015 年 ResNet 提出残差连接以来，这一范式统治了业界十年。然而，随着模型参数迈向万亿级别，传统的连接方式开始显现疲态。

为了追求更高的性能，业内曾尝试 HC（Hyper-connections，超连接），通过拓宽残差流宽度和多样化连接模式来提升性能。但这也带来了严重的副作用：削弱了恒等映射特性，导致梯度爆炸、训练不稳定，以及巨大的内存访问开销。

今天，DeepSeek 发布的这篇论文，正是为了解决这个“卡脖子”的问题。

02 核心技术：mHC（流形约束超连接）

📄 论文概览

论文标题：Manifold-Constrained Hyper-connections (mHC)
发布时间：2026年1月1日
核心作者：Zhenda Xie（解振达）、Yixuan Wei（韦毅轩）、Huanqi Cao
重磅署名：梁文锋（DeepSeek 创始人）

DeepSeek 发布新论文

💡 技术原理：什么是 mHC？

DeepSeek 提出的 mHC（Manifold-Constrained Hyper-connections） 是一个通用框架。简单来说，它通过数学方法，将超连接的残差连接空间投影到一个特定的流形上。

这一操作的核心目的有两个：

恢复恒等映射特性：保证信号在深层网络中无损传递。
基础设施级优化：确保在实际工程落地时的运行效率。

🆚 架构对比：ResNet vs HC vs mHC

下图清晰地展示了三种架构的演进逻辑。我们可以看到，mHC 并非简单地增加连接，而是通过“约束流形”来优化连接空间，从而在保证高性能的同时，维持了训练的稳定性。

架构示意图

(图注：残差连接范式演进。从标准残差连接到超连接，再到 DeepSeek 提出的流形约束超连接。)

03 性能实测：仅 6.7% 的额外开销

对于开发者来说，再好的理论如果跑不动也是徒劳。DeepSeek 在论文中给出了令人振奋的实测数据：

在内部大规模训练中，当扩展率 $n = 4$ 时，mHC 仅带来了 6.7% 的额外时间开销。

这意味着，开发者几乎不需要付出额外的计算成本，就能获得：

✅ 显著的性能提升
✅ 优异的可扩展性
✅ 稳定的大规模训练支持

04 通俗解读：给大模型装上“智能导航”

很多同学可能对上面的数学概念感到头大。我们可以用一个非常形象的例子来理解这项技术的突破。

背景：

ResNet 时代：训练模型就像几百人排队玩传话游戏。为了让后面的人听清，允许后面的人直接听最前面的人喊（残差连接）。但这导致最后一层收到的信号量太大，全是噪音，容易直接“崩溃”（梯度爆炸）。
HC 时代：DeepSeek 24年9月提出的 HC 相当于把单车道变成了四车道，路宽了，但车流无序，经常追尾，依然不稳定。

mHC 的突破：

2026年1月1号，DeepSeek 发布的 mHC 架构，相当于给每个人都发了一个 “智能导航系统”。

它实时引导数据流从不同的“高速公路”走，保证 进来多少车、出去也是多少车。车速依旧快，但不再撞车。mHC（流形约束） 就像是这个系统的底层规则，从数学上保证了信号传递和梯度的双向畅通。

这也就是为什么论文中说，mHC 将“避免训练半天梯度爆炸无法收敛”。

05 DeepSeek 近期“大动作”回顾

DeepSeek 最近的发布节奏非常密集，从学术到工程，全面发力：

2025年12月1日：发布 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。
- V3.2 在推理 Benchmarks 上达到 GPT-5 水平；
- Speciale 版本则强化了数学证明和逻辑验证，媲美 Gemini-3.0-Pro。
2025年9月29日：发布 DeepSeek-V3.2-Exp，引入稀疏注意力机制，API 价格腰斩（降价 50%+），开发者狂喜。
2025年9月17日：登顶 Nature 封面。
- DeepSeek-R1 论文成为中国大模型研究首个 Nature 封面。
- 《自然》评价：“几乎所有主流的大模型都还没有经过独立同行评审，这一空白终于被 DeepSeek 打破。”