目录

通信的本质与需求

通信的必要性

计算机通信体系结构

单机通信技术详解

GPU 间数据传输优化

多 CPU 与 NUMA 架构

GPU 高速互联技术

跨机通信与网络技术

数据中心与集群架构

1. 数据中心类型:

2. 服务器类型与机架设计:

3. 散热系统:

集群拓展与网络拓扑

1. 算力扩展

2. 超节点(Superpod)

3. 网络拓扑结构:

算网协同与在网计算

总结与展望


本篇文章讲述了通信在通用场景及深度学习领域的必要性,讲解计算机单机和跨机通信的方式、技术,介绍数据中心的分类、服务器类型、网络拓扑结构以及拓展模式等内容。

通信的本质与需求

  • • 通信的本质就是信息交换与传输

  • • 通用场景下的通信需求(互联网访问、数据交换)

  • • AI 领域的特殊通信需求

通信的必要性

  • • 模型规模增长趋势(从 GPT-3 到现代大模型)

  • • 训练数据规模扩大带来的挑战

  • • 算力与内存需求增长

图片

计算机通信体系结构

  • • 单机多 GPU 通信

  • • 多机跨网络通信

图片

单机通信技术详解

  • • PCIe vs 老式总线(PCI/AGP)

  • • PCIe 特点:点对点、Full-duplex、串行总线

  • • PCIe 多通道扩展(x1, x2,...,x16)

  • • 传输速率单位换算(GT/s → GB/s)

图片

  • • 编码开销与有效带宽计算

GPU 间数据传输优化

  • • 传统拷贝路径:GPU→CPU→GPU

  • • DMA(Direct Memory Access)技术

  • • Peer-to-Peer(P2P)直连技术

  • • PCIe 形成树状结构

  • • PCIe Switch 拓展连接更多设备

  • • 跨 CPU 通信路径分析

图片

多 CPU 与 NUMA 架构

  • • 多 CPU 互联技术

  • • Intel CPU QPI/UPI

  • • SMP/UMA:共享内存与总线

  • • AMP/NUMA:非均匀内存访问

  • • NUMA 优化策略:局部性优化

GPU 高速互联技术

  • • GPU 间直连通信

  • • 全连接拓扑(Fully Connected Mesh)

  • • 带宽对比:NVLink vs PCIe

  • • NVSwitch 扩展技术

跨机通信与网络技术

  • • 网络接口卡(NIC)

  • • 有线与无线网卡

  • • 协议栈处理与 CPU 参与

  • • RDMA(Remote Direct Memory Access)

图片

  • • 零拷贝与内核旁路

  • • RDMA实现方式:
     ① InfiniBand(原生RDMA)
     ② RoCE(RDMA over Converge Etnernet)
     ③ iWARP(基于TCP/IP)

数据中心与集群架构

1. 数据中心类型:
  • • 通算中心(CPU 为主)

  • • 超算中心(CPU+GPU)

  • • 智算中心(GPU/ASIC 为主)

图片

2. 服务器类型与机架设计:
  • • 塔式服务器、机架式服务器、刀片服务器

3. 散热系统:
  • • 风冷系统

  • • 液冷系统(冷板式、沉浸式/浸没式)

集群拓展与网络拓扑

1. 算力扩展
  • • Scale Up:纵向扩展

  • • Scale Out:横向扩展

  • • Scale Across:跨域扩展

2. 超节点(Superpod)

图片

3. 网络拓扑结构:
  • • 三层树状结构(接入/汇聚/核心层)

  • • 南北流量 vs 东西流量

  • • Spine-Leaf 结构

  • • 其他高性能计算网络拓扑

算网协同与在网计算

  • • 算网协同:网络感知计算需求、动态资源调整

  • • 在网计算:网络设备数据处理能力、计算任务卸载至网络层,边传输,边计算

图片

总结与展望

梳理深度学习通信的核心技术与硬件架构。后续将深入训练与推理中的通信算法与优化实践。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐