Meta 的DDC网络架构案例分享
Meta研发的DSF网络架构专为AI训练优化,通过物理隔离与三级解耦拓扑实现高性能。核心创新包括:双域架构分离协议处理与数据转发;信元喷射技术解决负载均衡;基于信用的硬件级无损流控;分布式故障自愈机制。DSF将万卡集群网络延迟降至微秒级,但存在专用硬件依赖、扩展性受限等局限。该架构为超大规模AI训练提供了新范式,其技术理念将影响下一代网络设计方向。
转自微信号:牛逼的IT
AI工作负载特有的"低熵、突发、大象流"特征,使得基于传统以太网的架构在万卡 GPU集群中遭遇严重性能瓶颈。Meta基于博通的 Jericho系列芯片研发了——DSF(Disaggregated Scheduled Fabric)无损确定性网络架构(国内一般叫DDC网络)。DSF不仅是对前作中各种"填坑"经验的技术升华,更是对AI训练网络本质的重新思考。

基础设计:物理隔离与三级解耦拓扑
1、前后端网络物理分离:
DSF的设计起点是彻底的物理解耦。如图1所示,Meta将AI训练网络(后端)与通用数据中心网络(前端)进行物理层面的分离,这一设计与字节MegaScale、腾讯星脉、阿里HPN等业界方案异曲同工。
前端网络采用标准三级Clos架构,基于Broadcom Tomahawk 5或Cisco G200等51.2T以太网交换机,专注通用性与互联互通。
后端网络则专为GPU间RDMA通信优化,初期采用Arista 7800系列,后续演进为基于Broadcom Jericho3-AI和Ramon3芯片的专用硬件。
2、双平面冗余与三级解耦架构:
DSF采用双平面(Dual-Plane)物理冗余设计,每个GPU通过两条独立链路分别接入Plane 0和Plane 1。逻辑上采用RDSW(Leaf)、FDSW(Spine)和SDSW(Super Spine)的三级解耦架构。

L1 Zone:作为DSF的最小调度单元,L1 Zone体现了精细化的设计理念:
-
RDSW:采用Arista 7700R4C-38PE,搭载Broadcom Jericho3-AI芯片,具备深缓存、高吞吐、低延迟特性
-
连接设计:18个800G下行端口连接GPU服务器,20个800G上行端口通过Breakout技术转换为40条400G逻辑链路
-
收敛比1.11:1,通过物理超配确保上行带宽冗余
-
FDSW:采用Arista 7720R4-128PE,搭载Broadcom Ramon3芯片,专司高速信元转发
-
单机128个800G端口,与Zone内所有RDSW全互联

L2 Zone与L3 Region:可扩展性设计,通过引入SDSW,DSF可互联4个L1 Zone构建18K GPU规模的L2 Zone集群。进一步通过Edge Pod和EDSW实现跨区域互联,支持超大规模部署。

核心技术突破:双域架构与创新机制
1、双域架构:以太网域与交换矩阵域的解耦,DSF最核心的创新在于双域架构设计。网络被划分为以太网域和交换矩阵域,实现了协议处理与数据转发的彻底解耦。
以太网域负责运行传统网络协议,保持与现有基础设施的兼容性。交换矩阵域则专司高性能数据转发,将数据包分割为信元进行高效传输。这种解耦架构是实现端到端无损调度的基础。
2、信元喷射:彻底解决负载均衡难题,与传统ECMP哈希方法不同,DSF采用信元喷射技术,通过"切片-喷洒-重组"的工作流程实现极致负载均衡。
-
切片:入口RDSW将变长以太网数据包切分为定长信元
-
喷洒:采用轮询方式将信元均匀喷射到所有可用上行链路
-
重组:出口RDSW利用深度缓存将乱序信元重组为原始报文
这一机制彻底消除了低熵流量导致的哈希极化,实现了链路负载的完美均衡。
3、基于信用的流控:硬件级无损网络保证,DSF的流控机制是前文所述软件层"Clear-to-Send"的硬件化实现,通过VOQ与Credit系统确保无损传输。
-
准备阶段:数据包进入针对特定目标的VOQ,为独立调度奠定基础
-
授权阶段:入口RDSW动态请求Credit令牌,基于实时网络状态决策
-
执行阶段:仅在获得Credit授权后,VOQ才调度信元传输
整个流程由Meta自研的FBOSS控制平面统一协调,通过FBOSS状态数据库实现节点间实时状态同步。
4、输入均衡模式:分布式故障自愈机制,DSF的输入均衡模式确保了在故障场景下的优雅降级。如图6所示,当检测到链路故障时,系统通过以下流程实现自愈:

-
实时检测:下游节点感知链路故障
-
FDSB广播:通过Fabric Disaggregation Protocol广播带宽缩减信号
-
分布式响应:上游节点启动"自我节流"机制
-
优雅降速:Credit信号逐级传播,实现全局优雅降速
这一机制防止了局部故障演变为全局拥塞风暴,确保了系统的高可靠性。
技术价值与局限性分析
DSF代表了AI训练网络架构的重要里程碑,其技术价值体现在三个维度:
- 性能极致化:通过双域架构和信元喷射,DSF实现了微秒级精度的无阻塞调度,将以太网性能推向了物理极限。
- 可靠性革新:基于信用的流控结合输入均衡模式,构建了硬件级的端到端无损网络,为AI训练提供了确定性保障。
- 架构前瞻性:三级解耦拓扑与双平面设计,为超大规模集群扩展提供了基础框架。
- 然而,DSF的"F1赛车"特性也带来了显著局限性:
- 专用硬件依赖:对Broadcom Jericho3-AI等深缓存专用芯片的强依赖,制约了技术在通用环境中的普及。
- 扩展性瓶颈:复杂的调度协议和硬件要求,限制了向吉瓦级超大规模数据中心的扩展能力。
- 成本与复杂度:专用硬件和控制平面的复杂度,带来了显著的部署和维护成本。
总结:
DSF的成功证明了以太网在AI训练场景下的巨大潜力,但其专用化特性也提出了新的问题:我们能否打造一辆既有"F1赛车"性能、又能在通用高速公路上驰骋的"保时捷911"?
这一问题的答案,或许就藏在Meta下一代网络架构NSF(非调度网络)的设计理念中。NSF旨在在保持高性能的同时,更好地拥抱通用以太网生态,为吉瓦级超大规模AI集群提供可行的网络解决方案。
在AI集群规模持续扩大的趋势下,网络架构的创新将继续扮演关键角色。DSF作为这一演进过程中的重要里程碑,不仅解决了当下的技术挑战,更为未来架构的发展指明了方向。
更多推荐

所有评论(0)