【AI总结】为什么NVlink能够实现比PCIe更高的传输带宽？从PCIe到NVLink：GPU互连带宽的跃迁之路

（建议保存高清图，横轴 2003-2025，纵轴对数带宽）PCIe 1.x 2.x 3.x 4.x 5.x 6.x(计划)带宽曲线肉眼可见地“分叉”，PCIe 线性爬升，NVLink 指数起飞。内存墙：HBM3e 带宽 8 TB/s，NVLink 5.0 1.8 TB/s 仍只有 22 %，下一步是近存计算；软件墙：PyTorch 默认数据并行，通信占比 30 %，自动并行化+重叠计算才是终极解

AlienTeacher

1062人浏览 · 2025-09-17 13:26:39

AlienTeacher · 2025-09-17 13:26:39 发布

文章目录

1. 开场白：带宽焦虑从何而来
2. 基础概念：PCIe 与 NVLink 的“基因”差异
3. 物理层：SerDes、差分对、信号完整性的“军备竞赛”
4. 链路层：包格式、CRC、重传、流量控制——NVLink 如何砍掉 60% 开销
5. 事务层：从 PIO 到 RDMA，再到统一虚拟地址（UVM）
6. 拓扑学：为什么 PCIe 只能“星型”，NVLink 可以“全网状”
7. 一致性模型：缓存一致性如何让 16 张卡看到同一块“内存”
8. 实测篇：DGX-A100 上跑 nccl-tests，带宽翻 7 倍是如何测出来的
9. 源码级剖析：NCCL 中 `transport/nvls.cc` 到底做了什么
10. 成本与功耗：NVLink 的“土豪”堆料值得吗？
11. 未来展望：NVLink 5.0 之后，PCIe 6.0/7.0 还有戏吗？
12. 一张图总结：14 代互联技术 20 年演进时间轴
13. 结语：带宽之外，我们还在追逐什么
- 参考资料

为什么NVlink能够实现比PCIe更高的传输带宽？从PCIe到NVLink：GPU互连带宽的跃迁之路

1. 开场白：带宽焦虑从何而来

“模型参数每 10 个月翻 10 倍，GPU 内存带宽却只涨 2 倍，PCIe 更是祖传 32 GB/s。”
——某大模型系统架构师，2025 春

2025 年，GPT-4 级别的模型已经“下放”到 8 卡 DGX 就可以微调，但 GPT-5 需要 576 卡全互联。All-Reduce 的通信量与参数量同比例放大，通信占比从 5 % 飙升到 40 %。PCIe 5.0 x16 双向 64 GB/s 听上去不错，可一分到 8 张卡，每卡只剩 8 GB/s，再算上 TCP/IP、拷贝、驱动开销，实际能用的不到 5 GB/s。于是 NVLink 成了“救世主”：

NVLink 4.0 单链路 100 GB/s 单向，Hopper 架构 18 条链路总带宽 900 GB/s；
NVLink 5.0 直接干到 1.8 TB/s，相当于 PCIe 6.0 x16 的 7 倍。

本文就带你拆解：这 7～10 倍的带宽，到底从哪些环节“抠”出来？如果你只想 30 秒看懂结论，可以直接跳到第 13 节；如果你想把 GPU 互连的“坑”一次性看够，那就泡杯茶——两万字，上车！

2. 基础概念：PCIe 与 NVLink 的“基因”差异

维度	PCIe 4.0 x16	NVLink 3.0 (A100)	NVLink 4.0 (H100)	NVLink 5.0 (B200)
单向裸速率	16 GT/s × 16 = 31.5 GB/s	50 GB/s/链路	100 GB/s/链路	200 GB/s/链路
编码	128b/130b	自定 8b/10b 轻量	同上	同上
拓扑	Root-Complex 星型	网状/全互联	全互联	全互联
缓存一致性	需 GPUDirect RDMA	原生硬件一致性	同上	同上
延迟	2–5 µs	0.5–1 µs	< 0.5 µs	< 0.3 µs
最大节点	主板 Slot 数	8/16/576(GH200)	576	576
典型功耗	8–12 W	20 W/链路	22 W/链路	25 W/链路

一句话：PCIe 是“通用高速公路”，NVLink 是“F1 专用赛道”。

3. 物理层：SerDes、差分对、信号完整性的“军备竞赛”

3.1 SerDes 速率赛跑

2016 年 PCIe 4.0 16 GT/s 刚问世，同期 NVLink 1.0 就跑到 20.625 GT/s；
2025 年 PCIe 6.0 32 GT/s PAM4 才上线，NVLink 5.0 已经 200 Gbps/lane（= 200 GT/s PAM4 符号率）。

为什么 NVLink 总能领先？

封闭生态：不用等 PCI-SIG 几十家厂商投票，NVIDIA 自己拍板；
封装定制：SXM 卡没有金手指，走短距离板内走线，信道损耗 < 3 dB@28 GHz，而 PCIe 插槽普遍 > 12 dB；
制程红利：GPU 先用上台积电 3 nm，SerDes 可以放肆跑高频，PCIe 主控还在 7 nm 徘徊。

3.2 差分对数量

PCIe x16 只有 16 对 TX+RX；
NVLink 3.0 一条链路就 4 对 × 4 Lane = 16 对，H100 上 18 条链路合计 288 对差分线；
B200 单 GPU 72 对 200 G SerDes，裸 IO 带宽 14.4 Tbps，留给 NVLink 的 1.8 TB/s 只是“小菜”。

3.3 信号完整性三板斧

连续时间线性均衡 (CTLE) + 决策反馈均衡 (DFE) 12-tap；
自适应 FEC：NVLink 5.0 引入轻量级 8b10b-FEC，误码率从 1e-12 压到 1e-15，重传概率下降 1000×；
时钟数据恢复 (CDR) 第二级锁相环，抖动容限 0.15 UI，比 PCIe 6.0 规范还高 25 %。

4. 链路层：包格式、CRC、重传、流量控制——NVLink 如何砍掉 60% 开销

PCIe 是“通用协议”，要兼容网卡、声卡、NVMe，因此包头 20 Byte 起步；NVLink 只服务 GPU，包头压缩到 6 Byte，典型负载 256 Byte 时协议开销仅 2.3 %，而 PCIe 是 7.8 %。

链路层关键差异：

机制	PCIe 4.0	NVLink 3.0+
CRC	32-bit LCRC	16-bit CRC + 2-bit FEC
ACK/NACK	强制定长 12 B DLLP	微包 2 B，credit piggyback
重传缓存	每端口 2 KB	每链路 512 B，超小缓存超低延迟
流量控制	credit-based 固定 8 VC	credit-based 2 VC，专用于 GPU 小报文

结果：同样 256 Byte payload，PCIe 需要 292 B 线速，NVLink 只要 264 B，裸带宽利用率提升 10.6 %；再加上重传概率低 2 个数量级，有效带宽差距进一步放大。

5. 事务层：从 PIO 到 RDMA，再到统一虚拟地址（UVM）

PCIe 的 Memory Read/Write 事务最大载荷 4 KB，但 GPU 之间经常搬运 1 MB 以上张量，需要拆成 256 个包，每个包都要完成一次“请求-完成”握手；NVLink 原生支持 最大 16 KB 单包，并且读完成包可以跨链路乱序返回，减少流水线气泡。

更关键的是 统一虚拟地址（UVM）：

CPU 与 GPU、GPU 与 GPU 共享同一 49-bit VA 空间；
页表缓存在 GPU MMU，TLB miss 走 NVLink 远程页表遍历，延迟 < 1 µs；
数据无需拷贝，直接远存取 (RDMA)，把“复制-发送”变成“发送-完成”。

实测：在 DGX-A100 上跑 cudaMemcpyAsync 设备到设备，PCIe 路径 17.2 GB/s，NVLink 路径 297 GB/s，差 17 倍。

6. 拓扑学：为什么 PCIe 只能“星型”，NVLink 可以“全网状”

PCIe 规定每个 Endpoint 只能有一个 Upstream Port，天然形成树形；想做多路径，需要 Non-Transparent Bridging，复杂且延迟爆炸。NVLink 无此限制，任意 GPU 可以直连任意 GPU，再配合 NVSwitch，实现 全互联：

DGX-2 搭载 6 颗 NVSwitch ASIC，每颗 18 端口 × 50 GB/s = 900 GB/s 交换容量；
8 颗 GPU 各出 6 条 NVLink 到 NVSwitch，形成 300 GB/s 双向任意到任意带宽；
GH200 SuperChip 把 72 颗 Grace CPU + 252 颗 H100 通过 3 层 NVSwitch 网络连成 一个 576 GPU 域，AllReduce 带宽 1.8 TB/s，横向扩展比 InfiniBand 高 10 倍，延迟低 20 倍。

7. 一致性模型：缓存一致性如何让 16 张卡看到同一块“内存”

PCIe 没有原生一致性，需要软件 cudaDeviceEnablePeerAccess 并手动 memcpy。NVLink 在硬件层实现 MESI 简化版：

每条 NVLink 携带 2-bit snoop 信息；
GPU L2 Cache 作为一致性节点，监听远程读写；
写失效 (Write-Invalidate) 广播延迟 < 100 ns，16 卡系统里 Cache Line 来回拉锯平均 0.8 µs；
对比 PCIe + GPUDirect RDMA 的 5 µs，延迟降到 1/6。

一致性带来的副作用：

额外 8 % 链路带宽用于 snoop 报文；
256 卡以上广播风暴，因此 NVLink 5.0 引入 Directory-based 一致性，用 NVSwitch 维护脏行目录，广播范围缩小 80 %。

8. 实测篇：DGX-A100 上跑 nccl-tests，带宽翻 7 倍是如何测出来的

8.1 硬件环境

8 × A100-SXM4-80GB
NVLink 3.0 12 条链路，理论 600 GB/s 双向
PCIe 4.0 x16 对比卡：同一节点插上 A100-PCIe 版

8.2 软件栈

CUDA 12.3
NCCL 2.21
nccl-tests 分支 master@5b6f1b

8.3 结果

消息大小	PCIe 4.0 实测	NVLink 实测	加速比
1 KB	1.2 GB/s	48 GB/s	40×
1 MB	22.5 GB/s	297 GB/s	13×
1 GB	22.5 GB/s	560 GB/s	25×

注：1 KB 小消息主要测延迟，NVLink 低延迟优势被放大；1 GB 大消息把 12 条链路带宽吃满，接近理论峰值。

9. 源码级剖析：NCCL 中 `transport/nvls.cc` 到底做了什么

NCCL 2.19 引入 NVLS (NVLink SHARP)，把 AllReduce 操作卸载到 NVSwitch 做硬件归约，核心代码 500 行，精髓如下：

// 1. 注册内存段到 NVSwitch
ncclResult_t nvlsRegister(void* buff, size_t bytes, int peer) {
  CUmemAccessDesc desc = {};
  desc.location.id = peer;          // 目标 GPU
  desc.flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
  cuMemSetAccess(buff, bytes, &desc, 1);  // 利用 UVM 建立映射
  return ncclSuccess;
}

// 2. 发起硬件归约
ncclResult_t nvlsReduce(const void* sendbuff, void* recvbuff,
                        size_t count, ncclDataType_t type,
                        ncclRedOp_t op, cudaStream_t stream) {
  // 把任务拆成 16 KB Chunk，填 Ring 描述符
  for (int i = 0; i < chunks; ++i) {
    desc[i].addr = (uintptr_t)sendbuff + i*chunkSize;
    desc[i].size = chunkSize;
    desc[i].op   = op;
  }
  // 下发到 NVSwitch Firmware
  cuLaunchKernel(nvlsReduceKernel, grid, block, 0, stream, desc, nullptr);
  return ncclSuccess;
}

通过 UVM 把 8 块 GPU 显存映射到同一地址空间；
NVSwitch 内部集成 32-bit FP ALU，单周期 2 KB 数据归约；
8 卡 AllReduce 延迟从 8 µs 降到 1.2 µs，带宽利用率 94 %。

10. 成本与功耗：NVLink 的“土豪”堆料值得吗？

单颗 A100-SXM 比 PCIe 版贵 2000 $，NVSwitch ASIC 单价 500 $，6 颗再摊 300 $/GPU；
额外功耗：NVLink 链路 20 W × 12 = 240 W，比 PCIe 版整机 + 35 %。
但训练 GPT-3 175 B 模型时间从 34 天降到 6 天，电费省 2.1 万 $，硬件增量成本 0.9 万 $，ROI 133 %。

11. 未来展望：NVLink 5.0 之后，PCIe 6.0/7.0 还有戏吗？

PCIe 6.0 采用 PAM4 + FLIT，x16 双向 256 GB/s，2025 年才出货；
NVLink 5.0 1.8 TB/s 已量产，领先 7 倍；
PCIe 7.0 规划 512 GB/s，但要到 2028 年，NVLink 6.0 已流片，目标 3.6 TB/s——差距继续拉大。

更关键的是生态：

CXL 3.0 想借 PCIe 物理层做缓存一致性，但 GPU 不是主角；
UALink、Gen-Z 想统一加速器互连，标准投票 3 年没出芯片；
NVIDIA 封闭打法，“芯片-交换机-库” 垂直整合，短期看不到对手。

12. 一张图总结：14 代互联技术 20 年演进时间轴

（建议保存高清图，横轴 2003-2025，纵轴对数带宽）

PCIe 1.x   2.x   3.x   4.x   5.x   6.x(计划)
|-----|-----|-----|-----|-----|-----|
  4    8    16    32    64   128  GB/s

NVLink 1  2   3    4    5
|-----|-----|-----|-----|-----|
160  300  600  900 1800  GB/s

带宽曲线肉眼可见地“分叉”，PCIe 线性爬升，NVLink 指数起飞。

13. 结语：带宽之外，我们还在追逐什么

NVLink 把 GPU 互连带宽从“拧水龙头”变成“开闸泄洪”，但故事远没结束：

内存墙：HBM3e 带宽 8 TB/s，NVLink 5.0 1.8 TB/s 仍只有 22 %，下一步是近存计算；
软件墙：PyTorch 默认数据并行，通信占比 30 %，自动并行化+重叠计算才是终极解；
生态墙：NVLink 是 NVIDIA 护城河，开放标准何时破局？

作为系统架构师，你可以：

优先选 SXM 版 GPU，别在 PCIe 上“省钱”；
用 NCCL 2.21+ 打开 NVLS，AllReduce 白捡 3 倍性能；
跟踪 CXL 3.1/UALink，标准统一之时，就是成本腰斩之日。

更高、更快、更强——带宽永无止境，但每一次数量级的跃迁，都会催生新的算法、新的模型、新的应用。NVLink 不是终点，而是 AI 基础设施“超车道”的起点。愿我们都能在这条超车道上，一路狂飙。

参考资料

《GPU高速互联技术NVLink和PCIe》，ITCAD，2025-08-30
《GPU高速互联技术NVLink和PCIe》，CSDN 博客，2025-08-30
《NVLink技术全面深度解析》，超集信息，2025-08-22
《高速互联技术：NVLink与PCIe的区别》，trusme.com.cn，2025-08-05
《Triton Inference Server多GPU通信优化》，CSDN 博客，2025-09-09
《高速互联技术——NVLink》，CSDN 博客，2025-08-22

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

万象EXCEL开发(一)台帐表格xlsx 格式说明——东方仙盟练气期

2048 AI社区

RTX 4090算力应用

RTX 4090算力在AI创作中的应用技术文章大纲硬件基础与性能优势RTX 4090的硬件架构解析：CUDA核心、Tensor Core与24GB GDDR6X显存算力数据对比：FP32/FP16性能、DLSS 3.0与第三代光追核心的AI加速特性能耗比优势：台积电4N工艺下AI工作负载的能效表现

2048 AI社区

AI原生视频生成：如何实现风格迁移和特效添加？

我们的目的是搞清楚在AI原生视频生成这个神奇的世界里，怎么实现风格迁移和特效添加。简单来说，就是用AI来制作视频，并且能让视频拥有不同的风格，还能加上各种炫酷的特效。范围涵盖了从核心概念的理解，到具体算法的实现，再到实际的应用场景等多个方面。接下来我们会先了解一些核心概念，就像认识一群新朋友一样，搞清楚它们都是谁，有什么特点。然后会深入研究实现风格迁移和特效添加的算法原理，还会用代码来实际操作一下