Meta 的DDC网络架构案例分享

Meta研发的DSF网络架构专为AI训练优化，通过物理隔离与三级解耦拓扑实现高性能。核心创新包括：双域架构分离协议处理与数据转发；信元喷射技术解决负载均衡；基于信用的硬件级无损流控；分布式故障自愈机制。DSF将万卡集群网络延迟降至微秒级，但存在专用硬件依赖、扩展性受限等局限。该架构为超大规模AI训练提供了新范式，其技术理念将影响下一代网络设计方向。

weixin_72858395

144人浏览 · 2025-12-15 00:17:48

weixin_72858395 · 2025-12-15 00:17:48 发布

转自微信号：牛逼的IT

AI工作负载特有的"低熵、突发、大象流"特征，使得基于传统以太网的架构在万卡 GPU集群中遭遇严重性能瓶颈。Meta基于博通的 Jericho系列芯片研发了——DSF（Disaggregated Scheduled Fabric）无损确定性网络架构（国内一般叫DDC网络）。DSF不仅是对前作中各种"填坑"经验的技术升华，更是对AI训练网络本质的重新思考。

基础设计：物理隔离与三级解耦拓扑

1、前后端网络物理分离：

DSF的设计起点是彻底的物理解耦。如图1所示，Meta将AI训练网络（后端）与通用数据中心网络（前端）进行物理层面的分离，这一设计与字节MegaScale、腾讯星脉、阿里HPN等业界方案异曲同工。

前端网络采用标准三级Clos架构，基于Broadcom Tomahawk 5或Cisco G200等51.2T以太网交换机，专注通用性与互联互通。

后端网络则专为GPU间RDMA通信优化，初期采用Arista 7800系列，后续演进为基于Broadcom Jericho3-AI和Ramon3芯片的专用硬件。

2、双平面冗余与三级解耦架构：

DSF采用双平面（Dual-Plane）物理冗余设计，每个GPU通过两条独立链路分别接入Plane 0和Plane 1。逻辑上采用RDSW（Leaf）、FDSW（Spine）和SDSW（Super Spine）的三级解耦架构。

L1 Zone：作为DSF的最小调度单元，L1 Zone体现了精细化的设计理念：

RDSW：采用Arista 7700R4C-38PE，搭载Broadcom Jericho3-AI芯片，具备深缓存、高吞吐、低延迟特性
连接设计：18个800G下行端口连接GPU服务器，20个800G上行端口通过Breakout技术转换为40条400G逻辑链路
收敛比1.11:1，通过物理超配确保上行带宽冗余
FDSW：采用Arista 7720R4-128PE，搭载Broadcom Ramon3芯片，专司高速信元转发
单机128个800G端口，与Zone内所有RDSW全互联

L2 Zone与L3 Region：可扩展性设计，通过引入SDSW，DSF可互联4个L1 Zone构建18K GPU规模的L2 Zone集群。进一步通过Edge Pod和EDSW实现跨区域互联，支持超大规模部署。

核心技术突破：双域架构与创新机制

1、双域架构：以太网域与交换矩阵域的解耦，DSF最核心的创新在于双域架构设计。网络被划分为以太网域和交换矩阵域，实现了协议处理与数据转发的彻底解耦。

以太网域负责运行传统网络协议，保持与现有基础设施的兼容性。交换矩阵域则专司高性能数据转发，将数据包分割为信元进行高效传输。这种解耦架构是实现端到端无损调度的基础。

2、信元喷射：彻底解决负载均衡难题，与传统ECMP哈希方法不同，DSF采用信元喷射技术，通过"切片-喷洒-重组"的工作流程实现极致负载均衡。

切片：入口RDSW将变长以太网数据包切分为定长信元
喷洒：采用轮询方式将信元均匀喷射到所有可用上行链路
重组：出口RDSW利用深度缓存将乱序信元重组为原始报文

这一机制彻底消除了低熵流量导致的哈希极化，实现了链路负载的完美均衡。

3、基于信用的流控：硬件级无损网络保证，DSF的流控机制是前文所述软件层"Clear-to-Send"的硬件化实现，通过VOQ与Credit系统确保无损传输。

准备阶段：数据包进入针对特定目标的VOQ，为独立调度奠定基础
授权阶段：入口RDSW动态请求Credit令牌，基于实时网络状态决策
执行阶段：仅在获得Credit授权后，VOQ才调度信元传输

整个流程由Meta自研的FBOSS控制平面统一协调，通过FBOSS状态数据库实现节点间实时状态同步。

4、输入均衡模式：分布式故障自愈机制，DSF的输入均衡模式确保了在故障场景下的优雅降级。如图6所示，当检测到链路故障时，系统通过以下流程实现自愈：

实时检测：下游节点感知链路故障
FDSB广播：通过Fabric Disaggregation Protocol广播带宽缩减信号
分布式响应：上游节点启动"自我节流"机制
优雅降速：Credit信号逐级传播，实现全局优雅降速

这一机制防止了局部故障演变为全局拥塞风暴，确保了系统的高可靠性。

技术价值与局限性分析

DSF代表了AI训练网络架构的重要里程碑，其技术价值体现在三个维度：

性能极致化：通过双域架构和信元喷射，DSF实现了微秒级精度的无阻塞调度，将以太网性能推向了物理极限。
可靠性革新：基于信用的流控结合输入均衡模式，构建了硬件级的端到端无损网络，为AI训练提供了确定性保障。
架构前瞻性：三级解耦拓扑与双平面设计，为超大规模集群扩展提供了基础框架。
然而，DSF的"F1赛车"特性也带来了显著局限性：
专用硬件依赖：对Broadcom Jericho3-AI等深缓存专用芯片的强依赖，制约了技术在通用环境中的普及。
扩展性瓶颈：复杂的调度协议和硬件要求，限制了向吉瓦级超大规模数据中心的扩展能力。
成本与复杂度：专用硬件和控制平面的复杂度，带来了显著的部署和维护成本。

总结：

DSF的成功证明了以太网在AI训练场景下的巨大潜力，但其专用化特性也提出了新的问题：我们能否打造一辆既有"F1赛车"性能、又能在通用高速公路上驰骋的"保时捷911"？

这一问题的答案，或许就藏在Meta下一代网络架构NSF（非调度网络）的设计理念中。NSF旨在在保持高性能的同时，更好地拥抱通用以太网生态，为吉瓦级超大规模AI集群提供可行的网络解决方案。

在AI集群规模持续扩大的趋势下，网络架构的创新将继续扮演关键角色。DSF作为这一演进过程中的重要里程碑，不仅解决了当下的技术挑战，更为未来架构的发展指明了方向。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Babel幽灵注释：删节点为何删不掉注释？

Babel中"幽灵注释"问题的核心原因是注释并非节点的属性，而是通过leadingComments/trailingComments关联的独立对象。当使用path.remove()删除节点时，注释对象及其位置信息仍保留在内存中，导致生成代码时注释被错误保留或漂移。解决方案包括：1)删除前手动清空注释引用；2)用空语句替换节点；3)清除位置元数据。理解Babel"宁留勿漏"的设计哲学，按照"清注释→

2048 AI社区

Flutter 框架跨平台鸿蒙开发 - 生活中的书法练习应用开发文档

2048 AI社区

Claude Code 使用技巧

Claude Code 使用摘要 Claude Code 提供三种交互模式（默认/自动接受/计划模式），支持多种快捷键和斜杠命令管理对话、记忆和任务。用户可通过CLI启动，使用!执行Shell命令，利用Skill复用常用指令，并通过Subagents处理独立任务。记忆系统分为项目级和用户级，支持图片输入和Hooks自动化。MCP协议可扩展外部工具集成，插件系统增强功能边界。