转自微信号:牛逼的IT

AI工作负载特有的"低熵、突发、大象流"特征,使得基于传统以太网的架构在万卡 GPU集群中遭遇严重性能瓶颈。Meta基于博通的 Jericho系列芯片研发了——DSF(Disaggregated Scheduled Fabric)无损确定性网络架构(国内一般叫DDC网络)。DSF不仅是对前作中各种"填坑"经验的技术升华,更是对AI训练网络本质的重新思考。

基础设计:物理隔离与三级解耦拓扑

1、前后端网络物理分离:

DSF的设计起点是彻底的物理解耦。如图1所示,Meta将AI训练网络(后端)与通用数据中心网络(前端)进行物理层面的分离,这一设计与字节MegaScale、腾讯星脉、阿里HPN等业界方案异曲同工。

前端网络采用标准三级Clos架构,基于Broadcom Tomahawk 5或Cisco G200等51.2T以太网交换机,专注通用性与互联互通。

后端网络则专为GPU间RDMA通信优化,初期采用Arista 7800系列,后续演进为基于Broadcom Jericho3-AI和Ramon3芯片的专用硬件。

2、双平面冗余与三级解耦架构:

DSF采用双平面(Dual-Plane)物理冗余设计,每个GPU通过两条独立链路分别接入Plane 0和Plane 1。逻辑上采用RDSW(Leaf)、FDSW(Spine)和SDSW(Super Spine)的三级解耦架构。

图片

L1 Zone:作为DSF的最小调度单元,L1 Zone体现了精细化的设计理念:

  • RDSW:采用Arista 7700R4C-38PE,搭载Broadcom Jericho3-AI芯片,具备深缓存、高吞吐、低延迟特性

  • 连接设计:18个800G下行端口连接GPU服务器,20个800G上行端口通过Breakout技术转换为40条400G逻辑链路

  • 收敛比1.11:1,通过物理超配确保上行带宽冗余

  • FDSW:采用Arista 7720R4-128PE,搭载Broadcom Ramon3芯片,专司高速信元转发

  • 单机128个800G端口,与Zone内所有RDSW全互联

图片

L2 Zone与L3 Region:可扩展性设计,通过引入SDSW,DSF可互联4个L1 Zone构建18K GPU规模的L2 Zone集群。进一步通过Edge Pod和EDSW实现跨区域互联,支持超大规模部署。

图片

核心技术突破:双域架构与创新机制

1、双域架构:以太网域与交换矩阵域的解耦,DSF最核心的创新在于双域架构设计。网络被划分为以太网域和交换矩阵域,实现了协议处理与数据转发的彻底解耦。

以太网域负责运行传统网络协议,保持与现有基础设施的兼容性。交换矩阵域则专司高性能数据转发,将数据包分割为信元进行高效传输。这种解耦架构是实现端到端无损调度的基础。

2、信元喷射:彻底解决负载均衡难题,与传统ECMP哈希方法不同,DSF采用信元喷射技术,通过"切片-喷洒-重组"的工作流程实现极致负载均衡。

  1. 切片:入口RDSW将变长以太网数据包切分为定长信元

  2. 喷洒:采用轮询方式将信元均匀喷射到所有可用上行链路

  3. 重组:出口RDSW利用深度缓存将乱序信元重组为原始报文

这一机制彻底消除了低熵流量导致的哈希极化,实现了链路负载的完美均衡。

3、基于信用的流控:硬件级无损网络保证,DSF的流控机制是前文所述软件层"Clear-to-Send"的硬件化实现,通过VOQ与Credit系统确保无损传输。

  1. 准备阶段:数据包进入针对特定目标的VOQ,为独立调度奠定基础

  2. 授权阶段:入口RDSW动态请求Credit令牌,基于实时网络状态决策

  3. 执行阶段:仅在获得Credit授权后,VOQ才调度信元传输

整个流程由Meta自研的FBOSS控制平面统一协调,通过FBOSS状态数据库实现节点间实时状态同步。

4、输入均衡模式:分布式故障自愈机制,DSF的输入均衡模式确保了在故障场景下的优雅降级。如图6所示,当检测到链路故障时,系统通过以下流程实现自愈:

图片

  • 实时检测:下游节点感知链路故障

  • FDSB广播:通过Fabric Disaggregation Protocol广播带宽缩减信号

  • 分布式响应:上游节点启动"自我节流"机制

  • 优雅降速:Credit信号逐级传播,实现全局优雅降速

这一机制防止了局部故障演变为全局拥塞风暴,确保了系统的高可靠性。

技术价值与局限性分析

DSF代表了AI训练网络架构的重要里程碑,其技术价值体现在三个维度:

  1. 性能极致化:通过双域架构和信元喷射,DSF实现了微秒级精度的无阻塞调度,将以太网性能推向了物理极限。
  2. 可靠性革新:基于信用的流控结合输入均衡模式,构建了硬件级的端到端无损网络,为AI训练提供了确定性保障。
  3. 架构前瞻性:三级解耦拓扑与双平面设计,为超大规模集群扩展提供了基础框架。
  4. 然而,DSF的"F1赛车"特性也带来了显著局限性:
  5. 专用硬件依赖:对Broadcom Jericho3-AI等深缓存专用芯片的强依赖,制约了技术在通用环境中的普及。
  6. 扩展性瓶颈:复杂的调度协议和硬件要求,限制了向吉瓦级超大规模数据中心的扩展能力。
  7. 成本与复杂度:专用硬件和控制平面的复杂度,带来了显著的部署和维护成本。

总结:

DSF的成功证明了以太网在AI训练场景下的巨大潜力,但其专用化特性也提出了新的问题:我们能否打造一辆既有"F1赛车"性能、又能在通用高速公路上驰骋的"保时捷911"?

这一问题的答案,或许就藏在Meta下一代网络架构NSF(非调度网络)的设计理念中。NSF旨在在保持高性能的同时,更好地拥抱通用以太网生态,为吉瓦级超大规模AI集群提供可行的网络解决方案。

在AI集群规模持续扩大的趋势下,网络架构的创新将继续扮演关键角色。DSF作为这一演进过程中的重要里程碑,不仅解决了当下的技术挑战,更为未来架构的发展指明了方向。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐