【每日一题】AI时代大家都要了解的GPU互联相关的总线技术
本文系统介绍了AI训练集群中GPU互联的各类总线技术。主要内容包括:1)主流互联技术(PCIe、NVLink、Infinity Fabric、以太网/InfiniBand、CXL、UALink)的性能规格、技术特点和发展趋势;2)按实际部署占有率对技术进行排序;3)研发和量产阶段的测试验证方案;4)UEC与UALink在以太网改进方面的异同及未来关系。文章指出,随着AI集群规模扩大,GPU互联技术

周六早上一个间接的搞投资的朋友可能因为要需要看一些AI底层技术的项目,想访谈一下涉及PCIe和NVLink相关的技术提前准备一下功课。我突然想起来之前之前想搞这么一篇文章,介绍介绍和AI加速、GPU互联相关的底层总线技术。今天把之前的素材找出来重新总结了一下,放在这里供大家参考。
GPU互联的各类总线技术
引言
随着AI训练集群的规模不断扩大,GPU之间高速互联成为性能瓶颈突破的关键。当前在全球范围内,业界采用了多种GPU“纵向(scale-up)”互联总线技术,包括NVLink、PCI Express(PCIe)、以太网(Ethernet)等标准,以及新兴的Compute Express Link(CXL,底层打底是PCIe 5.0速度,预计将从PCIe 6.0开始加速部署)和其它专有/开放互联(如AMD的Infinity Fabric/XGMI、Ultra Accelerator Link 等)。
本文将系统总结这些GPU互联涉及的大家经常听说的各类总线技术的协议代际规格(速度、通道数和理论带宽)、各自的发展趋势、技术优劣势,以及主要厂商的采用和推广情况。同时,我们将按照当前实际部署的占有率对这些技术进行排序。
本文后半部分将阐述各类互联总线在研发、测试到量产阶段需要进行的测试项目、测试技术和使用的测试工具/厂家,并以实例说明如何在量产环节确保产品质量。
最后,我们将详细讨论Ultra Ethernet Consortium(UEC)与Ultra Accelerator Link(UALink)这两个组织的技术走向,以及二者在以太网协议改进方面的异同,评估它们未来融合的可能性。
主流GPU互联总线技术概览
当今GPU加速服务器中主要的互联总线技术包括PCIe(基础IO总线,更多详细介绍可以参考、下载本文底部Saniffer发布的”白皮书“)、专用高速GPU互联(如NVIDIA NVLink、AMD XGMI/Infinity Fabric)、基于标准网络的互联(以太网及InfiniBand),以及新兴的开放标准(如CXL和UALink)。下面分别介绍各技术的原理、代际规格和性能指标。
PCI Express(PCIe)
PCIe是通用高速串行总线,也是GPU与主板/CPU连接的基础接口。每一代PCIe将速率翻倍:PCIe 3.0每通道8 GT/s(约1 GB/s有效带宽),PCIe 4.0每通道16 GT/s(≈2 GB/s),PCIe 5.0提升至32 GT/s(≈4 GB/s),PCIe 6.0使用PAM4调制达到64 GT/s(有效约7.5 GB/s)。典型配置下,PCIe x16插槽提供的理论带宽如下:
-
PCIe 3.0 x16:单向约16 GB/s,双向合计≈32 GB/s。
-
PCIe 4.0 x16:单向约32 GB/s,双向合计≈64 GB/s。
-
PCIe 5.0 x16:单向约64 GB/s,双向合计≈128 GB/s。
-
PCIe 6.0 x16:单向约121 GB/s,双向合计≈242 GB/s(引入前向纠错FEC,编码开销后有效带宽约7.5 GB/s/通道)。
-
PCIe 7.0 x16:单向约242 GB/s,双向合计≈484 GB/s
说明:上述带宽为理论最大值,实际有效负载吞吐受编码开销和协议开销影响略低。PCIe 8.0已在规划中(目标256 GT/s,即再翻倍带宽)以满足未来需求。
技术特点:PCIe作为通用标准,具有广泛兼容性和成熟的生态。所有GPU(无论NVIDIA、AMD或国内GPU)在与主机CPU通信时都支持PCIe。因此PCIe的部署率几乎是100%。优点是标准开放、支持热插拔和拓扑灵活(可通过PCIe交换芯片扩展设备数)。但PCIe相对而言延迟较高,且缺少跨设备的内存一致性(直到CXL出现之前)。在多GPU直连通信方面,PCIe必须通过共享PCIe交换机或CPU内存转发,带宽和延迟都不理想。因此,在大型GPU系统内部,厂商引入了专用高速直连总线来补强PCIe的带宽和延迟不足。
NVIDIA NVLink 和 NVSwitch
NVLink是NVIDIA开发的专用高速GPU互联总线,支持GPU-GPU以及GPU-CPU直接通信。NVLink采用多条高速差分信号对组成链路,提供远高于PCIe的传输带宽和较低延迟。各代NVLink的速率和带宽如下:
-
NVLink 1.0(2016,Pascal架构):每对差分线速率20 GT/s,8对为一方向子链路,双向链路总带宽20 GB/s。Pascal每GPU支持4条NVLink 1.0链路,总双向带宽可达160 GB/s
-
NVLink 2.0(2017,Volta架构):速率提升至25 GT/s,8线构成单方向25 GB/s带宽,双向链路50 GB/s。Volta V100 GPU支持6条NVLink 2.0链路,总带宽达300 GB/s(双向)
-
NVLink 3.0(2020,Ampere架构):信号速率翻倍至50 GT/s,但每链路所需差分对减半(4对/方向),因此单链路带宽仍为50 GB/s双向。Ampere A100每GPU配备12条NVLink 3.0,合计双向带宽600 GB/s
-
NVLink 4.0(2022,Hopper架构):采用PAM4调制在50 GT/s速率下传输,单链路维持50 GB/s双向。Hopper H100每GPU增加到18条NVLink 4.0,总带宽达900 GB/s(双向)
-
NVLink 5.0(2024+,Blackwell架构):进一步提升为100 GT/s,单链路带宽翻倍至100 GB/s双向,若仍采用18条链路则总带宽可达1.8 TB/s
NVLink在少数GPU间可直接全连通;在GPU数量更多时,引入专用交换芯片NVSwitch构成星型/集群拓扑。NVSwitch提供NVLink端口集中交换,实现每GPU对等互连。例如,H100的NVSwitch芯片拥有64个端口,可支持多达64块GPU互连,整机总交换带宽高达7.2 TB/s@ 900 GB%2Fs)。NVSwitch还支持硬件直通的集合通信加速(如SHARP,用于GPU间规约运算)
优劣势:NVLink/NVSwitch是目前带宽最高、延迟最低的GPU互联方案之一,使NVIDIA GPU可以组成大规模共享内存域(如DGX系列系统)。它的劣势在于专有封闭:NVLink仅适用于NVIDIA自家GPU/CPU,不兼容第三方硬件。这种锁定生态使系统灵活性受限,且NVLink需要特殊物理接口(如NVIDIA SXM模块)和交换芯片支持,增加成本。尽管如此,依托NVIDIA在AI市场的主导地位,NVLink的部署占有率在专用GPU互联中位居第一。所有基于NVIDIA A100/H100等GPU的高端服务器一般都启用了NVLink互联,而使用PCIe插卡的中低端GPU服务器则可能仅靠PCIe通信。
AMD Infinity Fabric / XGMI
Infinity Fabric是AMD的片上互连架构,扩展用于芯片间高速通信。针对GPU对GPU互联,AMD提供了XGMI(External Global Memory Interconnect)协议,构建在Infinity Fabric之上,实现多GPU共享统一内存地址空间的一致性互连。XGMI主要用于AMD Instinct加速器(MI系列)以及GPU与CPU的直连通信。例如,MI50/MI60 GPU之间就通过XGMI桥接,AMD最新的MI300X GPU也采用Infinity Fabric 4代技术连接多Chiplet和多GPU。
性能规格:以MI300系列为例,每块MI300X GPU具有最多7条Infinity链路,每条链路为16通道,第四代Infinity Fabric速率约32 Gbps/通道,折合每条XGMI链路双向带宽约128 GB/s(单向约64 GB/s)。这比PCIe Gen5 x16的64 GB/s单向带宽高出一倍。多个MI300 GPU可以通过XGMI组成所谓“hive”架构,所有GPU共享各自HBM组成的统一内存池。早期的MI100等GPU也支持双GPU间的XGMI直连,其带宽据报告单向可达几十GB/s量级(例如双MI100测得双向~70–92 GB/s性能,接近理论值)。
发展趋势:AMD正将Infinity Fabric拓展到交换拓扑,以超越单机限制。如Broadcom的下一代PCIe交换芯片Atlas 3将支持直接转发XGMI流量,并号称可通过36 dB信道驱动数米铜缆,这意味着XGMI可以用直连线缆扩展到机箱间连接[。这类似于NVIDIA通过NVSwitch和LinkX电缆扩展NVLink的做法。未来AMD GPU有望借助外部交换芯片,在机柜级实现类似NVSwitch的多GPU互连规模。此外,AMD还计划将XGMI接口集成到智能网卡DPU上,构建所谓“AI NIC”,使NIC可以直接与GPU缓存一致连接。这一策略将结合以太网络进行跨节点扩展(见下节),形成AMD自己的GPU互连+以太网络的分层解决方案。
优劣势:XGMI提供了缓存一致性和内存直访能力,这是NVLink目前尚未完全提供(NVLink支持统一虚拟内存但非完全硬件缓存一致)。因此在AMD CPU+GPU平台上,GPU可直接参与统一内存编址,减少数据拷贝开销。不过XGMI的生态普及率较低:仅AMD Instinct加速卡和配套平台支持,AMD在AI加速器市场份额相对有限,因此XGMI部署量远不及NVLink。目前XGMI主要出现在像Frontier超算这类全AMD系统中,尚未形成跨厂商的通用标准。随着AMD推动开源生态(ROCm、RCCL库等)以及携手Broadcom等伙伴推动开放互连(见UALink),XGMI技术可能在联盟规范下获得更广泛应用。
以太网 & InfiniBand(GPU集群网络互连)
以太网(Ethernet)是使用最广泛的网络互连技术,在GPU服务器和集群中主要担当“横向(scale-out)”通信职责,即跨服务器节点的数据交换。近年来,随着高速以太网的发展,不少AI训练集群开始直接采用以太网作为GPU节点互联的高性能网络。在高端HPC和部分AI集群中,NVIDIA的InfiniBand也是重要的网络互连,其定位与以太网类似,但针对HPC通信优化。
性能演进:数据中心以太网链路速率不断提升,当前主流高速以太网标准包括100 Gbps、200 Gbps、400 Gbps,800 Gbps,1.6Tbps端口也已推出。以太网速率常通过增加通道数和提高单通道速率实现,例如100G可由4×25 Gbps通道组成,400G可采用4×100 Gbps PAM4通道,800G则通过8×100 Gbps或4×200 Gbps实现。最新IEEE 802.3dj标准正定义单通道200 Gbps(212.5 GT/s)的以太网PHY,用于800G和更高速率网络。
延迟和协议:传统以太网采用TCP/IP协议栈,软件开销大而延迟相对高。然而在GPU集群中,通常使用RDMA技术(如RoCE以太网RDMA)绕过内核,提高吞吐并降低延迟。现代400G以太网卡配合RDMA的一端对端延迟可低至数微秒量级,但仍高于NVLink这类总线级互连(纳秒级)。InfiniBand是另一种HPC网络标准,提供类似RDMA的功能和硬件调度,延迟比以太网略低且抖动小。当前InfiniBand NDR速率为400 Gbps,与400G Ethernet相当,下一代HDR 800G也在规划中。许多传统超算使用InfiniBand作为GPU节点互联,但在云和AI公司数据中心,以太网正成为主流选择。NVIDIA自身也提供两种方案:InfiniBand用于经典HPC集群,而针对新兴AI超级集群推出了基于以太网Switch和BlueField DPU的Spectrum-X方案。目前迹象表明,InfiniBand在AI领域的领先地位受到挑战,高性能以太网因其通用性正迅速崛起。
优劣势:以太网兼容性强、成本相对低,可与企业现有IT架构融合,这是其一大优势。通过UEC等组织的推动(后述),以太网正引入新机制改善大规模AI通信的效率和可靠性。InfiniBand则在技术上略胜一筹(成熟的硬件RDMA、极低延迟的交换体系),但它是专有标准(由Mellanox/NVIDIA主导),设备费用高且生态相对封闭。总体而言,就部署占有率看:千兆及以上以太网接口存在于几乎每台服务器上,以太网网络的普及率最高。在高性能GPU集群中,InfiniBand曾占相当比例,但如今大型AI集群更多转向以太网(配合RDMA)或Ethernet/InfiniBand并存。因此,综合AI/HPC领域,以太网网络的节点覆盖率要高于InfiniBand。两者在GPU互联市场形成并存局面:NVIDIA自身统计其数据中心GPU出货中有约75%伴随网络产品,其中InfiniBand和以太网均占相当部分,但最新趋势是以太方案增长更快。
Compute Express Link(CXL)
CXL是近年来崛起的开放标准互连协议,旨在利用PCIe物理接口实现CPU与设备(GPU/FPGA等)以及内存之间的高速、缓存一致互连。CXL由业界联盟于2019年发起(成员包括Intel、AMD、ARM、IBM、阿里巴巴、华为等)。它在PCIe 5.0及以上总线上运行,提供三种子协议:CXL.io(PCIe等价的IO通信)、CXL.cache(共享缓存一致性)、CXL.mem(内存直访)。这使加速器能够像CPU一样缓存访问主内存,甚至多个设备共享内存池。
代际性能:CXL沿袭PCIe带宽演进,带宽随底层PCIe翻倍:
-
CXL 1.1/2.0:基于PCIe 5.0(32 GT/s),x16链路单向最高约64 GB/s,双向128 GB/s。CXL 2.0引入内存池化和热插拔支持,但仍局限于点对点或切换式拓扑(类似PCIe Switch)。
-
CXL 3.0:基于PCIe 6.0(64 GT/s),x16单向带宽提升至约121 GB/s(双向≈242 GB/s)。CXL 3.0在2022年公布,增加了多层交换、多主机共享内存、一致性域扩展等特性,使得多个CPU和加速器可以通过CXL交换架构构成大规模一致内存系统。
-
CXL 4.0:于2025年11月发布,基于PCIe 7.0(128 GT/s),再次将带宽翻倍至x16单向约242 GB/s(双向近500 GB/s) 。CXL 4.0继续增强一致性和内存共享能力,让异构计算资源更高效协同。
技术特点和趋势:CXL最大的价值在于开放统一:它整合了此前多个竞争规范(如Intel的OPA、Gen-Z、IBM OpenCAPI、CCIX等为一体,成为业界公认的CPU-设备一致性互连标准。未来服务器处理器(如Intel Sapphire Rapids、AMD Genoa)都已支持CXL 1.1/2.0,用于连接内存扩展模块(CXL Memory Expander)或高速存储级内存。对于GPU等加速卡,目前NVIDIA和AMD也加入了CXL联盟。然而截至2025年底,GPU直接通过CXL互连的部署还非常有限。NVIDIA尚未让其GPU支持CXL模式(仍用NVLink),AMD则有概念演示但产品未普及。CXL最大的短板在于高延迟:因叠加在PCIe之上,协议层级深且FEC纠错带来额外延迟,比NVLink/Infinity直连高不少。另外,CXL目前更多用于CPU主导的内存池化场景,尚未在多GPU互联中扮演主要角色。但长远看,CXL有潜力成为不同厂商加速器与CPU共享内存的标准接口,特别是在需要大量统一内存的AI推理和数据中心应用中。
优势:开放标准、广泛支持、提供内存一致性,未来可简化异构系统设计。劣势:现阶段带宽和延迟不如专用GPU互连,产业成熟度有待提高。CXL的现实部署占有率目前主要体现在高端服务器内的内存扩展上,在GPU互联市场影响力还处于起步阶段。
Ultra Accelerator Link(UALink)
UALink是2024年发起的全新开放互连规范,全称“Ultra Accelerator Link”,旨在为AI加速器提供厂商中立的高带宽、低延迟互联解决方案。它由AMD、Broadcom牵头,与Cisco、谷歌、Intel、Meta、微软等共同成立联盟制定。UALink的目标是直接对标NVIDIA的NVLink/NVSwitch,为多GPU(或其它加速芯片)构建大规模共享内存互连,并以开放标准降低成本、促进多厂商互通。
技术规格:根据2025年4月发布的UALink 1.0规范:
-
高速SerDes:采用修改的以太网PHY,信号速率212.5 GT/s,考虑64B/66B编码和FEC开销后,每通道净数据率200 Gb/s。这相当于每通道单向200 Gb/s(双向合计400 Gb/s)的吞吐。
-
链路配置:UALink可按x1、x2、x4聚合通道,一个x4链路由4个通道组成,总带宽高达800 Gb/s单向(即800 GT/s双向,每方向约100 GB/s)。相比之下,NVLink 4.0单GPU总带宽900 GB/s双向,但需要18条链路;UALink则倾向于每GPU一个端口即可提供≈100 GB/s单向带宽,通过集中交换扩展。
-
扩展规模:单个UALink互连系统最高支持1024个加速器端口,通过多级UA Switch实现扇出,采用10比特设备ID路由。链路设计针对机架/机柜范围,线缆长度优化为<4 米,64B小包往返延迟<1 微秒,实现跨1–4机架的确定性低延迟通信。这意味着UALink可将多达千片GPU组成一个低延迟互联域,规模远超当前NVSwitch单机架72–144 GPU的连接能力。
-
协议层:UALink定义了4层硬件协议栈(Physical、Data Link、Transaction、Protocol)。物理层使用标准以太网组件(如200G BASE-KR/CR)并简化FEC降低延迟[;数据链路层以64 Byte微帧(flit)为基本单位,组合成640 Byte帧传输,并提供CRC校验与重试机制,支持链路管理消息等;事务层实现地址压缩和直接远程内存读写/原子操作,保证本地和远程内存访问顺序一致[。协议层支持直接的内存负载/存储语义,使GPU间可直接读写彼此内存(类似统一虚拟地址空间),这正是与NVLink/Infinity一致性内存的同类能力。
-
安全与虚拟化:UALink内置硬件安全机制UALinkSec,支持链路数据全加密和认证,防范物理窃听篡改,适配机密计算环境(如AMD SEV、Intel TDX等)。支持虚拟Pod划分:通过交换层配置,可在单个互连域内将若干GPU划分隔离给不同租户/任务,实现多租户并行训练且保障带宽和安全。管理方面,提供标准接口(如通过PCIe、以太网的控制通道)进行设备监控、遥测、故障定位等,联盟提供参考管理软件栈。
优势展望:UALink由众多行业巨头支持(AMD、Intel、谷歌、苹果等),力图成为“加速器互连的de facto标准“。其技术设计充分利用了最新以太网SerDes的发展,方便现有硅工艺和材料复用(降低开发难度和成本)。相较NVLink的封闭生态,UALink有望让更多厂商参与GPU互联,实现异构系统的互操作和规模化(比如未来AMD、Intel的GPU都使用UALink端口,可连接统一交换网络)。安全隔离和多租户支持也贴合云计算AI集群需求,这是NVLink目前未完全覆盖的场景。
劣势与挑战:UALink规范虽已发布,但实际产品尚需时间推出,实现超过NVLink的性能也取决于交换芯片和协议栈成熟度。NVIDIA作为市场主导者短期内不大会主动采用UALink;因此UALink初期生态可能主要由AMD等推动,需要证明其性价比和性能优势以吸引广泛采用。总的来说,UALink目前处于研发初始阶段,实际部署占有率接近0,但未来2-3年内随着联盟成员推出支持UALink的GPU、交换芯片,可能逐步形成对NVLink的有力竞争。
技术部署占有率排序
基于以上分析,按照当前实际部署和应用的广泛程度,可以粗略将主要GPU互联技术的市场占有情况排序如下:
-
PCIe总线:所有GPU服务器都离不开PCIe,与CPU通信100%依赖PCIe,因此PCIe无疑是最普及的基础互联总线。每块加速卡至少提供PCIe x16连接主板,即使有专用高速链路,PCIe仍用于控制及数据补充通道。
-
以太网网络:从单机到大规模集群,以太网覆盖率极高。几乎所有服务器节点都有千兆/万兆以太端口用于集群管理或存储网络,而在AI训练集群中,100G/200G/400G以太网(结合RDMA)正成为主流节点互联方案。特别在互联网公司和云厂商的数据中心,采用以太网构建GPU集群(如Facebook、微软的AI集群)带来了良好的灵活性和成本优势。
-
InfiniBand网络:在高性能计算和部分AI超级计算中心,InfiniBand仍然扮演重要角色,许多GPU集群通过InfiniBand 200G/400G网络实现低延迟通信。NVIDIA的大型DGX SuperPOD方案往往配置InfiniBand HDR/NDR交换机。但相对于以太网,InfiniBand部署主要集中于传统HPC和部分高端AI场景,总体节点覆盖数略低于以太网。目前有迹象表明NVIDIA将InfiniBand更多定位于HPC市场,而推动以太网方案用于AI训练(Spectrum-X等)。
-
NVIDIA NVLink:作为专用GPU互连,NVLink在所有多GPU NVIDIA系统中已经广泛应用(如每台含4/8张A100、H100的服务器内部都用NVLink通信)。据NVIDIA透露,其数据中心出货的GPU中相当大比例采用NVLink SXM模块而非PCIe卡,由此推断NVLink连接的GPU数量已相当可观。然而相比PCIe和网络,NVLink受限于NVIDIA生态圈,在所有GPU(包括消费卡)总体占比并非绝对多数。但就AI训练用的高端GPU而言,NVLink几乎成为标配。因此按加速集群算,NVLink部署率可以说名列前茅,仅次于基础IO和网络。
-
AMD Infinity Fabric (XGMI):AMD GPU在数据中心市场占比有限,导致XGMI实际部署数量不大。只有像Frontier超算(搭载约数万颗MI250X GPU)这样全部采用AMD GPU的系统里,Infinity互连占主导。在更广泛的AI训练领域,AMD GPU节点远少于NVIDIA,因此XGMI当前占有率较低,主要存在于少数AMD平台。随着MI300等产品和ROCm生态的发展,未来XGMI有机会进入更多AI系统,但目前仍属小众。
-
Compute Express Link (CXL):截至2025年,CXL更多地出现在CPU与内存扩展卡、内存池化设备的部署中,大规模GPU间通过CXL直接互连尚无成熟商用案例。因此在GPU互联上下文,CXL实际部署占有率可以认为刚起步。一些服务器已具备CXL 2.0功能(用于内存拓展),但GPU利用CXL进行一致性共享还在验证阶段。未来若Intel/AMD GPU全面支持CXL 3.0,这一格局可能改变。
-
Ultra Accelerator Link (UALink):作为新发布标准,当前无商用部署。预期联盟成员将在2026年前后推出支持UALink 200G 1.0的GPU和交换芯片,在那之后才会出现实际占有率。因此目前UALink还停留在规范纸面和样片研制阶段。
(注:上述排序以定性分析为主,不同环境下排名会有差异。例如InfiniBand在Top500超算中占有率很高,但在云数据中心则以太网占优。本列表着眼于AI训练服务器这一大环境。)
GPU互联技术的测试验证方案
要确保上述互联总线技术在产品中可靠运行,需要贯穿研发、验证、量产各阶段的一系列测试。在研发阶段,重点在于物理信号和协议功能的验证;在系统集成和量产阶段,则侧重兼容互通、性能,以及通过高效测试保障大规模产品质量。下面分阶段列出主要测试项目、所用技术和工具。
研发阶段测试(物理层 & 协议层验证)
-
信号完整性(SI)和物理层测试:高速总线首先要确保物理信号质量达标。这包括眼图测试、抖动分析、插损和反射测量、误码率(BER)测试等。常用工具有高带宽示波器(如Keysight是德、Tektronix泰克等提供的25–70 GHz示波器)用于眼图和抖动测量,误码率测试仪BERT(如Keysight、安立 Anritsu等的高速BERT)用于发送PRBS码型检测误码。还会采用矢量网络分析仪(VNA)测量通道S参数确保走线/连接器满足损耗指标。物理层测试通常在实验室完成,是研发设计环节不可或缺的一步。
-
协议层和功能验证:在确保信号通畅后,需要验证协议逻辑和功能正确性。使用PCIe协议分析仪(PCIe protocol analyzer)和协议发生器(PCIe protocol tester or exerciser)对总线上的上层交易(transaction)进行捕获和解析。例如,SerialTek PCIe协议分析仪可监视PCIe/CXL链路的握手和数据包,当然该SerialTek也支持NVMe协议分析。测试内容包括链路训练(如PCIe链路协商速度和通道数是否按预期)、协议握手序列(如CXL的缓存一致性消息交换)、错误处理机制(如注入错误帧验证纠错流程)等。通过协议一致性测试套件(如PCI-SIG发布的PCIe一致性测试规范、CXL联盟提供的测试用例)可以验证设备是否满足标准协议要求。这些测试通常需要专业协议测试仪配合软件自动执行,并由SerialTek等厂商提供解决方案,用于验证协议层符合标准规范。(感兴趣的可以参考本文底部saniffer发布的“白皮书”的相关章节获得更多针对PCIe 6.0 Pre-FYI CTS兼容性测试的信息)
-
兼容性和互操作性测试:对于开放标准尤为重要,需确保不同厂商设备间能正确协作。例如不同品牌的PCIe主板与GPU是否兼容、CXL内存扩展卡在不同CPU上是否都能正常运作、以太网NIC是否能与主流交换机互通并启用RDMA等。这类测试往往通过多厂商互通测试活动(Plugfest)完成,比如PCI-SIG和USB-IF经常举办互通性测试周,CXL联盟也会组织成员一起验证兼容性。测试手段包括将被测设备与各种参考设备组合反复测试基本功能,使用协议分析工具抓取异常。互操作性测试有时由第三方实验室提供服务(如UNH-IOL等),国内也有相应测试机构如Saniffer上海公司,可出具兼容性报告,确保产品大规模部署时不会出现协议兼容问题。
-
性能和吞吐量测试:验证互联技术在各种典型负载下的性能表现。这包括带宽测试(如使用大型持续数据流测定最大GB/s)、延迟测试(如测量端到端RTT延时,特别对以太网/InfiniBand重要)和拓扑扩展测试(如NVSwitch/UALink在多节点场景下性能随GPU数量扩展的变化)。工具方面,网络类常用专门的流量发生/分析仪(如Spirent、Keysight的40/100/400G以太网测试仪)来产生线速流量并统计丢包和延迟;GPU互联则可以编写显存Ping-Pong测试或借助NVIDIA NCCL、AMD RCCL等通信库的测试程序评估多GPUAll-Reduce、All-to-All的有效带宽。性能测试要在不同报文大小、并发流数下进行,以找出吞吐和延迟瓶颈,必要时借助协议分析工具观察是否有拥塞或流控问题。对于新协议(如UET、UALink),需要特别验证其在极端流量模式下(如同步大流、多点汇聚incast)能否维持稳定低延迟。
-
稳定性和可靠性测试:包括长期压力测试和故障注入测试。通过让互联链路在长时间高负载下运行,观察是否出现错误(如PCIe链路降速、以太网端口FEC纠错次数增加等)从而评估可靠性。可使用专业压力测试工具或自编测试脚本反复进行数据校验传输。故障注入则指有意制造错误情形,验证系统反应:例如用Quarch的故障注入卡插入随机的各类bit error, CRC error, code violation等,观察链路是否触发重传;或者模拟单条通道失效,看多通道链路是否能降级工作。还有电气层面的毛刺、sideband信号例如RefClk故障注入测试等。这些测试可以配合环境实验——在高温高湿等条件下测,以及上电下电反复扰动测试,确保互连的抗干扰和容错能力达标。仪器方面,很多协议分析仪具备错误注入功能(如SerialTek协议分析仪可以模拟、仿真各类错误,Quarch公司的故障注入工具可插入随机的错误序列),环境测试则需使用温控箱、电源扰动器等设备。经过一系列严苛测试后,研发阶段才能确认设计在信号、协议、性能上均达到了量产要求。
量产阶段测试(生产测试 & 质量保障)
当进入批量生产,测试需要兼顾效率和成本。每台服务器/每块板卡都要经过测试以筛除不良,但不可能逐一用研发阶段昂贵仪器去全面检测,因此采用快速自动化测试和抽样验证相结合的策略。
-
板级制造测试:在PCB制造和组件焊接完成后,会进行ICT(在线测试)和AOI/X-Ray(光学与X射线检查)。ICT利用测试针床对电路节点测通断和基础元件值,但对于高速差分线,传统ICT无法覆盖带宽性能,只能检查连通性。因此厂家通常确保高速接口的走线在设计和PCB制造时就通过仿真和工艺控制,ICT主要验证没有短路断路。X-Ray用于检查BGA封装(如高速连接器或芯片)的焊接质量。通过这些工序,保证基本硬件装配无误。
-
功能测试(FCT):在产线搭建自动化功能测试台(ATE),对组装好的服务器或加速器卡进行端到端功能验证。测试项包括:接口端口的连通和训练、设备识别、基本读写功能、性能简测等。例如,在主板上插上GPU后,上电检查PCIe链路是否训练到预期速度(如PCIe Gen5 x16);有NVLink的系统检查GPU间NVLink链路是否全部连通且速率正确。同时测试NIC端口:插入环回模块,发送测试报文验证以太网收发正常等。为了提高效率和保护昂贵器件,厂商常使用专用测试夹具/治具。
-
案例:OAM 2.0 假负载测试夹具 – OAM(开放加速模块)是一种高带宽GPU模块标准,新一代OAM 2.0 GPU非常昂贵且反复插拔易损。在生产线上,有些服务器厂商不会用真GPU去测试底板上的OAM插座是否良好,而是通过Saniffer定制设计的“假OAM 2.0”模块作为测试治具进行产线PCIe等的信号和连通性测试。这个假GPU具有与真GPU相同的连接器和电气特性,但内部只是环回电路或简单负载,用于模拟GPU的基本握手和供电。将其插入主板OAM插槽后,可以测试接口的管脚连通、电源供给是否正常,以及NVLink等高速链路是否能成功训练连通(假模块会把发送通道直接环回接收通道,从而测试主板信号完整性)。这样做避免了真GPU在流水线上不断插拔,既保护了昂贵器件也降低了测试成本。测试通过后再在最终装配时插入真GPU即可,确保每个接口都已验证。
-
-
性能抽测与验证:并非每台量产设备都跑满负载测试,但通常会抽样一定比例(比如每批次随机抽几台)进行较深入的性能验证。在抽测样品上运行标准测试工具,例如用iperf测试网络带宽、延迟,用厂家提供的诊断程序测试GPU显存通信带宽等。如果发现性能偏差较大,就需要追查生产工艺或物料问题。部分厂商也会对所有设备做简短的压力测试(Burn-in),如让服务器跑几小时GPU矩阵运算+网络IO,看是否出现错误或不稳定,再出厂。这样的烧机通常利用设备自带的算力和通信能力,不额外占用仪器,只需架设足够的负载(可能使用专门开发的Burn-in软件)。
-
自动测试设备与工具厂家:生产线上大量使用定制的自动测试系统。大型仪器厂商(Keysight是德、NI等)提供可编程的开关矩阵、数据采集卡,用以构建ATE。但很多测试工序需要专用治具和本地定制方案。例如,PCIe插槽可能使用一个高速环回卡(将Tx/Rx短路)来测试; QSFP网络口使用光环回模块或载板连接到测试交换机。国内也有不少厂家专门生产这些测试配套工具和提供集成服务,例如Saniffer公司提供的针对100G/200G/400G/800G/1.6Tbps的BERT测试机台。例如,也有公司定制整套治具板卡,让其同时插入服务器的所有高速插槽,自动完成并行测试,然后由软件判定结果。测试厂家在这里发挥的作用包括提供可靠的连接器模块、负载板,和控制软件界面等,以便生产线工人一键运行整机测试。国际厂商如Keysight、Tektronix、SerialTek等在生产测试领域也提供仪表和方案,但考虑成本,产线更倾向于简化/加速测试而非全面测量。国内一些测试公司、治具供应商,为华为、浪潮等服务器厂商提供过类似OAM假载板、PCIe Gen5环回卡、光模块环回适配器等解决方案,帮助提升测试效率。
-
质量控制和追溯:最后,量产测试都建立了严格的质控流程。每个互联接口的测试结果都会记录在MES系统,若发现某批次有异常(比如某端口训练失败率偏高),可以追溯问题源头(连接器批次不良或焊接问题等)。对于不合格产品,分门别类进行维修或报废分析。通过上述流程,厂家在量产阶段能保证出货产品的互联总线质量可靠,同时避免过度测试浪费时间成本。
总结而言,研发阶段强调详尽和严苛(用高端仪器逐项验证),而生产阶段讲究快速和批量(用简化方法覆盖关键功能)。两者相辅相成,确保GPU互联技术既达到尖端性能,又在实际产品中稳定可靠地发挥作用。
Ultra Ethernet Consortium(UEC) vs. UALink:融合前景与以太网改进之比较
Ultra Ethernet Consortium(UEC)和UALink Consortium分别是近年兴起的两个业界组织,都着眼于满足AI/HPC时代的新型互联需求,但着力点不同:一个从网络协议层面改进以太网,一个从硬件互连层面设计加速器直连方案。以下将比较二者针对以太网协议改进的异同,并分析它们未来的关系。
-
定位与目标:UEC成立于2022年,由Arista、AMD、Intel、华为等100多家公司参与,旨在增强以太网以支撑AI/HPC工作负载。它关注于在现有以太网/IP基础上,引入新的传输层(称为Ultra Ethernet Transport, UET)和交换机制,提升大规模AI通信的性能、伸缩性和安全性。。简单说,UEC想打造“一张更聪明的以太网”,超越现有专有高性能网络(如InfiniBand)的性能,同时保持以太网通用生态。UALink则聚焦于GPU等加速器的横向直连,提供类似NVLink的内存直访型互连。在实现上,UALink并非传统意义上的网络协议,而更像是一种片间总线,但可扩展跨服务器。它部分借用了以太网的物理层技术(200 Gbps SerDes), 但并没有使用以太网的IP/TCP协议栈,而是自定义了一套针对共享内存和一致性的协议。因此,二者解决的问题层次不同:UEC解决“如何让成千上万GPU节点通过网络高效通信(主要在OSI第3-4层及以上)”,UALink解决“如何让上千个GPU构成一个大规模共享内存池(主要在第1-2层到片间事务层)”。
-
对以太网的改进方式:UEC选择继承并革新以太网。它并未抛弃以太网框架,而是在其之上增加新机制。例如UET把RDMA变成原生以太功能,设计了一系列改进:支持海量端点(从传统RDMA的几万扩展到上百万节点)、加入分组级多路径喷发(packet spraying)避免大流量倾斜、支持乱序投递和选择性重传减少丢包开销,,提供组密钥加密保障多租户安全通信等。所有这些改进都是在以太网帧和IP分组的范式上进行的,即保留标准以太物理和基本协议格式,但增强传输层和控制算法。。换言之,UEC的方案使以太网+IP栈本身更高效智能,让AI应用直接受益而无需采用另一套网络。相比之下,UALink对以太网的“改进”主要在物理层使用。UALink利用IEEE 802.3dj的高速电接口,实现了与以太网相当的每通道速率,但其链路层、事务层完全自定义。UALink没有IP或TCP头,也不兼容普通以太网交换机。它需要专门的UASwitch进行路由转发。可以说UALink是一种新的互连架构,只是借用了以太网的电信号技术,并没有试图改善以太网协议本身——它绕过了传统网络协议,以追求极致的专用性能。
-
共同点:尽管方式不同,UEC和UALink有一些共同理念:两者都充分利用200G/800G时代以太网SerDes的进步,为HPC/AI提供更高带宽/更低延迟的通信。两者都非常关注降低延迟和提高吞吐:UEC通过减少协议开销和更优算法(如无握手快速建立连接、细粒度拥塞控制等)降低网络延迟,UALink则通过缩短链路物理距离(<4 m)和精简转发层级,将GPU间延迟压到亚微秒。另外,两者都意识到安全与资源隔离在AI时代的重要性,因此均在各自方案中引入了硬件级安全(UEC的UET支持端到端加密,UALink有链路加密和Pod隔离)。可以说,UEC和UALink都反映出AI基础设施的新需求:更快、更大规模、可多租户共享且安全可靠的通信。
-
差异与互补:UEC改善的是通用以太网络,受益范围广,可以应用于任意需要高性能通信的场景,包括CPU-CPU、CPU-GPU以及存储系统等。其成果可能包括新的交换机算法、新型NIC(比如Broadcom已推出符合UEC规范的800G “Thor Ultra”以太网网卡)等。这些改进仍可服务于任意厂商的设备(只要接入以太网)。UALink则更专注加速器直连,且需要硬件专门支持。它并非通用网络接口,而更像计算机内部总线的延伸。从应用层面看:UEC方案下,跨服务器GPU通信仍通过IP网络完成,不过网络更快更聪明;UALink方案则希望在多服务器之间架设起一张专用直连网,把分属不同服务器的GPU变为“同一机架内”一样来互联。这两种思路其实可以并行存在,甚至上下互补:例如,AMD的战略就是GPU内部用Infinity/UALink构建一致性大节点,节点之间通过Ultra Ethernet网络互联。在AMD的MI300架构中,每服务器通过XGMI实现4块GPU一致内存,而跨服务器通信则交由Pensando DPU通过UEC优化的以太网完成。这种组合发挥了两者所长。NVIDIA当前则主要依赖NVLink+InfiniBand/Ethernet;未来如果UALink普及,Intel或AMD完全可能采用“UALink + Ultra Ethernet”的组合架构来对抗NVIDIA。
-
是否会融合:鉴于上述差异,短期内UEC和UALink不会合并为一个。UEC属于Linux基金会项目,侧重网络协议标准;UALink是独立联盟,制定硬件接口规范。两组织有许多共同成员(AMD、Intel、Broadcom等),会确保各自标准在物理层等方面兼容互惠,但目标不同使其组织架构和产出并不重叠。目前看,UEC提供的是广域网络层解决方案,UALink提供机架内部署方案——二者更多是协同而非重叠关系。例如,将来UALink Switch可能通过网关连接到Ultra Ethernet交换机,实现更大规模跨Pod通信,但UALink内部运行的仍是自己的协议,并不会因为有UEC就废弃。同样,UEC并不会制定GPU一致性共享的规范,那仍留给UALink/ CXL之类完成。因此,预计UEC和UALink会各自推进各自的标准,在生态上相互支持而不是互相取代。尤其考虑到很多公司同时参与两边,完全有动力让它们兼容友好。例如,UALink采用以太物理层就是一种“握手”,使得现有高速以太硬件可以较容易地转用为UALink设备。未来某些芯片可能同时支持UET报文和UALink事务,但这更像多模支持,而非标准融合。
综上:UEC和UALink分别代表从网络层和互连层革新AI基础架构的两条路径。两者都以以太网技术为基础,但UEC是在常规以太网上打造更智能的传输,UALink是利用以太物理实现新型直连总线。它们的改进有相似的出发点(提高带宽、降低延迟、支持大规模与安全),但作用层级和实现方式迥异。短期内不会互相替代或直接融合,而可能作为互补技术共同构建未来AI网络:内部采用像UALink这样的专用加速器互连,外部采用UEC优化的以太网络连接不同加速器集群。对于终端用户和整个行业而言,这两种努力都朝着一个方向:解除GPU计算集群的通信瓶颈,让“算力”和“帯宽”两条曲线齐头并进。未来几年,我们将看到UEC 1.x协议在交换机和网卡中实现,以及UALink 1.0产品的问世。它们能否成功,还有待市场和应用的检验。但可以肯定的是,无论路径如何,以太网作为通用互联架构的基础地位不会动摇,而UEC和UALink正是为了让以太互联能够胜任AI时代最严苛的需求,各自在各自层面上对以太网进行了创新性的增强。相信随着技术演进,GPU互联将变得更加开放、高效,推动AI训练集群规模和性能再上新台阶。
更多推荐



所有评论(0)