通信与并行系列《互联、集群与通信》
本文系统阐述了计算机通信技术体系,涵盖单机和跨机通信场景。从PCIe总线、NUMA架构等单机通信技术,到RDMA、InfiniBand等跨机网络方案,详细解析了现代计算系统的通信机制。特别关注AI场景下的GPU互联(NVLink/NVSwitch)和数据中心架构,包括服务器类型、网络拓扑(Spine-Leaf等)及扩展模式(Scale Up/Out)。最后探讨了算网协同和在网计算等前沿方向,为深度
目录
本篇文章讲述了通信在通用场景及深度学习领域的必要性,讲解计算机单机和跨机通信的方式、技术,介绍数据中心的分类、服务器类型、网络拓扑结构以及拓展模式等内容。
通信的本质与需求
-
• 通信的本质就是信息交换与传输
-
• 通用场景下的通信需求(互联网访问、数据交换)
-
• AI 领域的特殊通信需求
通信的必要性
-
• 模型规模增长趋势(从 GPT-3 到现代大模型)
-
• 训练数据规模扩大带来的挑战
-
• 算力与内存需求增长

计算机通信体系结构
-
• 单机多 GPU 通信
-
• 多机跨网络通信

单机通信技术详解
-
• PCIe vs 老式总线(PCI/AGP)
-
• PCIe 特点:点对点、Full-duplex、串行总线
-
• PCIe 多通道扩展(x1, x2,...,x16)
-
• 传输速率单位换算(GT/s → GB/s)

-
• 编码开销与有效带宽计算
GPU 间数据传输优化
-
• 传统拷贝路径:GPU→CPU→GPU
-
• DMA(Direct Memory Access)技术
-
• Peer-to-Peer(P2P)直连技术
-
• PCIe 形成树状结构
-
• PCIe Switch 拓展连接更多设备
-
• 跨 CPU 通信路径分析

多 CPU 与 NUMA 架构
-
• 多 CPU 互联技术
-
• Intel CPU QPI/UPI
-
• SMP/UMA:共享内存与总线
-
• AMP/NUMA:非均匀内存访问
-
• NUMA 优化策略:局部性优化
GPU 高速互联技术
-
• GPU 间直连通信
-
• 全连接拓扑(Fully Connected Mesh)
-
• 带宽对比:NVLink vs PCIe
-
• NVSwitch 扩展技术
跨机通信与网络技术
-
• 网络接口卡(NIC)
-
• 有线与无线网卡
-
• 协议栈处理与 CPU 参与
-
• RDMA(Remote Direct Memory Access)

-
• 零拷贝与内核旁路
-
• RDMA实现方式:
① InfiniBand(原生RDMA)
② RoCE(RDMA over Converge Etnernet)
③ iWARP(基于TCP/IP)
数据中心与集群架构
1. 数据中心类型:
-
• 通算中心(CPU 为主)
-
• 超算中心(CPU+GPU)
-
• 智算中心(GPU/ASIC 为主)

2. 服务器类型与机架设计:
-
• 塔式服务器、机架式服务器、刀片服务器
3. 散热系统:
-
• 风冷系统
-
• 液冷系统(冷板式、沉浸式/浸没式)
集群拓展与网络拓扑
1. 算力扩展
-
• Scale Up:纵向扩展
-
• Scale Out:横向扩展
-
• Scale Across:跨域扩展
2. 超节点(Superpod)

3. 网络拓扑结构:
-
• 三层树状结构(接入/汇聚/核心层)
-
• 南北流量 vs 东西流量
-
• Spine-Leaf 结构
-
• 其他高性能计算网络拓扑
算网协同与在网计算
-
• 算网协同:网络感知计算需求、动态资源调整
-
• 在网计算:网络设备数据处理能力、计算任务卸载至网络层,边传输,边计算

总结与展望
梳理深度学习通信的核心技术与硬件架构。后续将深入训练与推理中的通信算法与优化实践。
更多推荐



所有评论(0)