mHC:流形约束的超连接
25年12月来自DeepSeek-AI的论文“mHC: Manifold-Constrained Hyper-Connections”。近年来,以超连接(Hyper-Connections,HC)为代表的研究,扩展过去十年建立的普遍存在的残差连接范式,通过增加残差流的宽度和多样化连接模式,取得了显著的性能提升。然而,这种多样化从根本上破坏残差连接固有的恒等映射特性,导致训练不稳定和可扩展性受限,并
25年12月来自DeepSeek-AI的论文“mHC: Manifold-Constrained Hyper-Connections”。
近年来,以超连接(Hyper-Connections,HC)为代表的研究,扩展过去十年建立的普遍存在的残差连接范式,通过增加残差流的宽度和多样化连接模式,取得了显著的性能提升。然而,这种多样化从根本上破坏残差连接固有的恒等映射特性,导致训练不稳定和可扩展性受限,并且还会带来显著的内存访问开销。为了解决这些挑战,本文提出流形约束超连接(Manifold-Constrained Hyper-Connections,mHC),这是一个通用的框架,它将HC的残差连接空间投影到特定的流形上,以恢复恒等映射特性,同时结合严格的基础设施优化来确保效率。实验表明,mHC能够有效地进行大规模训练,提供显著的性能提升和卓越的可扩展性。mHC作为HC的一种灵活实用的扩展,将有助于更深入地理解拓扑架构设计,并为基础模型的演进提供有前景的方向。
深度学习的架构进展主要可分为微观设计和宏观设计。微观设计关注计算块的内部架构,具体说明特征如何在空间、时间和通道维度上进行处理。相比之下,宏观设计建立块间的拓扑结构,从而决定特征表示如何在不同层之间传播、路由和融合。
微观设计
在参数共享和平移不变性的驱动下,卷积最初主导结构化信号的处理。虽然后续的变体,例如深度可分离卷积(Chollet,2017)和分组卷积(Xie,2017)优化了效率,但 Transformer(Vaswani,2017)的出现使注意机制和前馈网络(FFN)成为现代架构的基本构建块。
注意机制促进全局信息传播,而 FFN 增强单个特征的表示能力。为了平衡性能与大语言模型的计算需求,注意机制已发展出高效的变体,例如多查询注意(MQA)(Shazeer,2019)、分组查询注意(GQA)(Ainslie,2023)和多头潜注意(MLA)(Liu,2024a)。同时,FFN 已通过专家混合(MoE)(Fedus,2022;Lepikhin,2020;Shazeer,2017)泛化为稀疏计算范式,从而允许大规模参数扩展而无需相应的计算成本增加。
宏观设计
宏观设计控制网络的全局拓扑结构(Srivastava,2015)。继 ResNet(He,2016a)之后,DenseNet(Huang,2017)和 FractalNet(Larsson,2016)等架构旨在分别通过密集连接和多路径结构增加拓扑复杂性来提高性能。深度层聚合(DLA)(Yu,2018)通过递归地聚合不同深度和分辨率的特征,进一步扩展这一范式。近年来,宏观设计的研究重点已转向扩展残差流的宽度(Chai,2020;Fang,2023;Heddes,2025;Mak & Flanigan,2025;Menghani,2025;Pagliardini,2024;Xiao,2025;Xie,2023;Zhu,2024)。超连接(Hyper-Connections,HC)(Zhu,2024)引入可学习矩阵来调节不同深度特征之间的连接强度,而残差矩阵transformer(Residual Matrix Transformer,RMT)(Mak & Flanigan,2025)则用外积记忆矩阵取代标准残差流,以促进特征存储。类似地,MUDDFormer(Xiao,2025)采用多路动态密集连接来优化跨层信息流。尽管这些方法具有潜优势,但它们会损害残差连接固有的恒等映射特性,从而引入不稳定性并阻碍可扩展性。此外,由于特征宽度增加,它们会产生显著的内存访问开销。
自 ResNet(He,2016a)问世以来,深度神经网络架构经历快速发展。如图 (a) 所示,单层结构可以表示如下:

其中 x_𝑙 和 x_𝑙+1 分别表示第 𝑙 层的 𝐶 维输入和输出,F 表示残差函数。尽管残差函数 F 在过去十年中不断发展,包含卷积、注意机制和前馈网络等各种操作,但残差连接的范式却保持其原始形式。随着 Transformer(Vaswani,2017)架构的发展,这种范式目前已成为大语言模型 (LLM)(Brown,2020;Liu,2024b;Touvron,2023)中的基本设计元素。
这一成功主要归功于残差连接的简洁形式。更重要的是,早期研究(He,2016b)表明,残差连接的恒等映射特性在大型训练过程中保持稳定性和效率。通过将残差连接递归地扩展到多个层,公式 (1) 可以得到:
其中 𝐿 和 𝑙 分别对应更深和更浅的层。恒等映射是指 x_𝑙 本身,它强调来自较浅层的信号可以直接映射到较深层而无需任何修改的特性。
最近,以 Hyper-Connections (HC)(Zhu,2024)为代表的研究为残差连接引入一个新的维度,并从经验上证明了其性能潜力。HC 的单层架构如图 (b) 所示。通过扩展残差流的宽度并增强连接复杂性,HC 在不改变单个单元的 FLOPs 计算开销的情况下显著增加拓扑复杂性。形式上,HC 中的单层传播定义为:
其中 x_𝑙 和 x_𝑙+1 分别表示第 𝑙 层的输入和输出。与公式 (1) 中的表述不同,x_𝑙 和 x_𝑙+1 的特征维度从 𝐶 扩展到 𝑛 × 𝐶,其中 𝑛 是扩展率。Hres_l 表示一个可学习的映射,用于混合残差流中的特征 𝑙。同样作为可学习映射,Hpre_l 将来自 𝑛𝐶 维流的特征聚合到 𝐶 维层输入中,反之,Hpost_l 将层输出映射回流中。
然而,随着训练规模的增加,HC 会引入潜在的不稳定性风险。主要问题在于,当架构扩展到多层时,HC 的无约束性质会损害恒等映射特性。在包含多个并行流的架构中,理想的恒等映射充当一种守恒机制。它确保在正向和反向传播过程中,跨流的平均信号强度保持不变。通过公式 (3) 将 HC 递归扩展到多层,得到:
其中 𝐿 和 𝑙 分别代表更深层和更浅层。与公式 (2) 不同,HC 中的复合映射prod (Hres_L-i) 无法保持特征的全局均值。这种差异会导致信号的无限放大或衰减,从而在大型训练过程中导致不稳定。此外,虽然 HC 在浮点运算次数 (FLOPs) 方面保持了计算效率,但其原始设计并未解决加宽残差流的内存访问成本方面的硬件效率问题。这些因素共同限制 HC 的实际可扩展性,并阻碍其在大型训练中的应用。
为了解决这些挑战,本文提出流形约束超连接 (mHC),如图 © 所示。这是一个通用框架,它将 HC 的残差连接空间投影到特定流形上,以恢复恒等映射特性,同时结合严格的基础设施优化以确保效率。具体而言,mHC 利用 Sinkhorn-Knopp 算法(Sinkhorn & Knopp,1967)将 Hres_l 熵投影到 Birkhoff 多面体(polytope)上。此操作有效地将残差连接矩阵约束在由双随机矩阵构成的流形内。由于这些矩阵的行和列之和等于 1,因此操作 Hres_l x_𝑙 相当于输入特征的凸组合。
这一特性有助于实现条件良好的信号传播,其中特征均值得以保留,并且信号范数得到严格正则化,从而有效地降低了信号消失或爆炸的风险。此外,由于双随机矩阵的矩阵乘法具有封闭性,因此复合映射prod (Hres_L-i) 保留了这种守恒特性。因此,mHC 有效地保持任意深度之间恒等映射的稳定性。为了确保效率,采用内核融合并利用 TileLang(Wang,2025)开发混合精度内核。此外,通过选择性重计算和在 DualPipe 调度(Liu,2024b)中仔细重叠通信来减少内存占用。
对语言模型预训练的广泛实验表明,mHC 表现出卓越的稳定性和可扩展性,同时保持 HC 的性能优势。内部大规模培训结果表明,mHC 支持大规模训练,并且在扩展率 𝑛 = 4 时,只会增加 6.7% 的额外时间开销。
在超连接(HC)公式中,可学习映射由两部分系数组成:一个与输入相关的系数和一个全局系数,分别称为动态映射和静态映射。具体而言,HC按如下方式计算系数:
其中,RMSNorm(·)(Zhang & Sennrich,2019)应用于最后一个维度,标量𝛼pre_l、𝛼post_l和𝛼res_l ∈ R 是可学习的门控因子,初始化为较小的值。
值得注意的是,引入这些映射——Hpre_l、Hpost_l 和 Hres_l——带来的计算开销可以忽略不计,因为典型的扩展率 n(例如 4)远小于输入维度 C。通过这种设计,HC 有效地将残差流的信息容量与层的输入维度解耦,而输入维度与模型的计算复杂度(FLOPs)密切相关。因此,HC 提供一种新的扩展途径,可以通过调整残差流的宽度来实现,从而补充预训练规模化定律(Hoffmann,2022)中讨论的传统模型计算量(FLOPs)和训练数据大小等扩展维度。
流形约束超连接
受恒等映射原理(He,2016b)的启发,mHC 的核心思想是将残差映射 Hres_l 约束到特定的流形上。虽然原始的恒等映射通过强制 Hres_l = I 来确保稳定性,但它从根本上阻止残差流内部的信息交换,而这对于最大化多流架构的潜力至关重要。因此,将残差映射投影到一个流形上,该流形既能保持信号在层间传播的稳定性,又能促进残差流之间的相互作用,从而保持模型的表达能力。为此,将 Hres_l 限制为双随机矩阵,其元素非负,且行和列的和都为 1。形式上,令 Mres 表示双随机矩阵的流形(也称为 Birkhoff 多面体)。将 Hres_l 约束到 P_Mres(Hres^_l),定义如下:
其中 1_𝑛 表示所有元素均为 1 的 𝑛 维向量。
值得注意的是,当 𝑛 = 1 时,双随机条件退化为标量 1,从而恢复原始的恒等映射。选择双随机性赋予几个对大规模模型训练有益的严格理论特性:
- 范数保持:双随机矩阵的谱范数以 1 为界(即 || Hres_l ||_2 ≤ 1)。这意味着可学习映射是非扩张的,有效地缓解梯度爆炸问题。
- 组合封闭性:双随机矩阵集合在矩阵乘法下是封闭的。这确保跨多层的复合残差映射 prod(Hres_L-i) 仍然是双随机的,从而在模型的整个深度上保持稳定性。
- 通过 Birkhoff 多面体的几何解释:集合 Mres 构成 Birkhoff 多面体,它是置换矩阵集合的凸包。这提供一个清晰的几何解释:残差映射充当置换的凸组合。从数学上讲,此类矩阵的重复应用倾向于单调地增加信息在流之间的混合,有效地充当一种鲁棒的特征融合机制。
此外,对输入映射 Hpre_l 和输出映射 Hpost_l 施加非负约束。这种约束可以防止由于正负系数组合而引起的信号抵消,这也可以被视为一种特殊的流形投影。
参数化和流形投影
mHC 中 Hpre_l、Hpost_l 和 Hres_l 的计算过程如下。
给定第 l 层的输入隐藏矩阵 x_l,首先将其展平为向量 ->x_l = vec(x_l) 以保留完整的上下文信息。然后,遵循原始 HC 公式获得动态映射和静态映射,如下所示:
然后,通过以下公式获得最终的约束映射:
其中 σ(·) 表示 Sigmoid 函数。Sinkhorn-Knopp(·) 算子首先通过指数运算使所有元素变为正值,然后进行迭代归一化过程,交替地对行和列进行重缩放,使其和为 1。具体而言,给定一个正矩阵 M(0) = exp(H̃ res_l) 作为起始点,归一化迭代过程如下:
其中 T_r 和 T_c 分别表示行归一化和列归一化。当 t_max → ∞ 时,此过程收敛到双随机矩阵 Hres_l = M^(t_max)。在实验中,选择 t_max = 20 作为实际值。
高效的基础设施设计
mHC 量身定制的基础设施设计如下。通过严格的优化,在大模型中实现 mHC(其中 𝑛 = 4),训练开销仅为 6.7%。
内核融合
mHC 中的 RMSNorm 在处理高维隐藏状态 ->x_𝑙 时会引入显著的延迟,因此将除以范数的操作重新排序,使其位于矩阵乘法之后。这种优化在保持数学等价性的同时提高效率。此外,采用混合精度策略,在不影响速度的情况下最大限度地提高数值精度,并将多个具有共享内存访问的操作融合到统一的计算内核中,以减少内存带宽瓶颈。
基于公式 (10) - (13) 中详述的输入和参数,实现三个专用的 mHC 内核来计算 Hpre_l、Hpost_l 和 Hres_l。在这些内核中,偏差和线性投影被合并到 b_𝑙 和 𝜑_𝑙 中,RMSNorm 权重也被吸收到 𝜑_𝑙 中。
公式 (14) - (15):开发一个统一的内核,该内核融合对 ->x_𝑙 的两次扫描,利用矩阵乘法单元最大限度地提高内存带宽利用率。反向传播过程(包括两次矩阵乘法)也类似地合并到一个内核中,消除对 ->x_𝑙 的冗余重新加载。这两个内核都具有精心调整的流水线(加载、类型转换、计算、存储),以有效地处理混合精度计算。
公式 (16) - (18):这些对小系数进行的轻量级操作被巧妙地融合到一个内核中,显著降低内核启动开销。
公式 (19):在单个内核中实现 Sinkhorn-Knopp 迭代。对于反向传播过程,推导出一个自定义的反向传播内核,该内核在芯片上重计算中间结果并遍历整个迭代过程。

利用上述核函数导出的系数,引入两个额外的核函数来应用这些映射:一个用于 F_pre ≔ Hpre_l x_𝑙,另一个用于 F_post,res ≔ Hres_l x_𝑙 + H^post ⊤^_l F (·, ·)。通过将 Hpost_l 和 Hres_l 的应用与残差合并相结合,该核函数读取的元素数量从 (3𝑛 + 1)𝐶 减少到 (𝑛 + 1)𝐶,写入的元素数量从 3𝑛𝐶 减少到 𝑛𝐶。用 TileLang(Wang,2025)高效地实现大多数核函数(不包括公式 (14) - (15))。该框架简化计算过程复杂的核函数的实现,并能够以最小的工程投入充分利用内存带宽。
重计算
𝑛流残差设计在训练过程中会引入大量的内存开销。为了缓解这个问题,在前向传播后丢弃mHC核的中间激活值,并在反向传播过程中通过重新执行mHC核(但不包含耗时的层函数F)来动态地重计算它们。因此,对于由𝐿𝑟个连续层组成的块,只需要存储第一个层的输入x_𝑙_0。
由于 mHC 核的重新计算是针对 𝐿_𝑟 个连续层的块进行的,给定总共 𝐿 层,必须为所有 ⌈𝐿/𝐿_r⌉ 个块持久存储第一层的输入 x_𝑙_0,以便进行反向传播。除了这部分常驻内存之外,重计算过程还会为活动块引入 (𝑛 + 2)𝐶 × 𝐿_𝑟 个元素的瞬时内存开销,这决定反向传播期间的峰值内存使用量。因此,通过最小化与 𝐿_𝑟 对应的总内存占用量来确定最佳块大小 𝐿∗_𝑟:
此外,大规模训练中的流水线并行性带来一个约束:重计算块不能跨越流水线阶段边界。考虑到理论最优值 𝐿∗_𝑟 通常与每个流水线阶段的层数一致,本文选择将重计算边界与流水线阶段同步。
DualPipe 中的通信重叠
在大规模训练中,流水线并行性是减少参数和梯度内存占用的标准做法。具体来说,用 DualPipe 调度(Liu,2024b),它可以有效地重叠横向扩展互连通信流量,例如专家并行和流水线并行中的通信流量。然而,与单流设计相比,mHC 中提出的 𝑛 流残差会在流水线阶段之间引入大量的通信延迟。此外,在阶段边界处,所有 𝐿_𝑟 层的 mHC 核的重计算会引入不可忽略的计算开销。为了解决这些瓶颈,扩展 DualPipe 调度(如图所示),以促进在流水线阶段边界处更好地重叠通信和计算。
值得注意的是,为了防止阻塞通信流,在专用的高优先级计算流上执行 MLP(即 FFN)层的 F_post,res 核。进一步避免在注意层中使用持久化核进行长时间运行的操作,从而防止长时间的停顿。这种设计可以抢占重叠的注意计算,从而实现灵活的调度,同时保持计算设备处理单元的高利用率。此外,重计算过程与流水线通信依赖关系解耦,因为每个阶段的初始激活 x_𝑙_0 已在本地缓存。
通过语言模型预训练来验证所提出的方法,并对基线模型、HC 模型和我们提出的 mHC 模型进行比较分析。
借鉴 DeepSeek-V3 (Liu et al., 2024b) 的 MoE 架构,训练四种不同的模型变体,以涵盖不同的评估场景。具体而言,HC 和 mHC 的扩展率 n 均设置为 4。主要研究对象是一个参数量为 27B 的模型,该模型使用与其参数量成比例的数据集进行训练,并以此作为系统级主要结果的依据。
在此基础上,通过引入使用一定比例数据集训练的较小 3B 和 9B 模型来分析计算扩展行为,从而观察不同计算量下的性能趋势。此外,为了专门研究 token 扩展行为,还在一个包含 1 万亿个 token 的固定语料库上训练一个单独的 3B 模型。
更多推荐

所有评论(0)