通信与并行系列《互联、集群与通信》

本文系统阐述了计算机通信技术体系，涵盖单机和跨机通信场景。从PCIe总线、NUMA架构等单机通信技术，到RDMA、InfiniBand等跨机网络方案，详细解析了现代计算系统的通信机制。特别关注AI场景下的GPU互联(NVLink/NVSwitch)和数据中心架构，包括服务器类型、网络拓扑(Spine-Leaf等)及扩展模式(Scale Up/Out)。最后探讨了算网协同和在网计算等前沿方向，为深度

Shining0596

68人浏览 · 2026-03-11 15:28:08

Shining0596 · 2026-03-11 15:28:08 发布

目录

通信的本质与需求

通信的必要性

计算机通信体系结构

单机通信技术详解

GPU 间数据传输优化

多 CPU 与 NUMA 架构

GPU 高速互联技术

跨机通信与网络技术

数据中心与集群架构

1. 数据中心类型：

2. 服务器类型与机架设计：

3. 散热系统：

集群拓展与网络拓扑

1. 算力扩展

2. 超节点（Superpod）

3. 网络拓扑结构：

算网协同与在网计算

总结与展望

本篇文章讲述了通信在通用场景及深度学习领域的必要性，讲解计算机单机和跨机通信的方式、技术，介绍数据中心的分类、服务器类型、网络拓扑结构以及拓展模式等内容。

通信的本质与需求

• 通信的本质就是信息交换与传输
• 通用场景下的通信需求（互联网访问、数据交换）
• AI 领域的特殊通信需求

通信的必要性

• 模型规模增长趋势（从 GPT-3 到现代大模型）
• 训练数据规模扩大带来的挑战
• 算力与内存需求增长

计算机通信体系结构

• 单机多 GPU 通信
• 多机跨网络通信

单机通信技术详解

• PCIe vs 老式总线（PCI/AGP）
• PCIe 特点：点对点、Full-duplex、串行总线
• PCIe 多通道扩展（x1, x2，...，x16）
• 传输速率单位换算（GT/s → GB/s）

• 编码开销与有效带宽计算

GPU 间数据传输优化

• 传统拷贝路径：GPU→CPU→GPU
• DMA（Direct Memory Access）技术
• Peer-to-Peer（P2P）直连技术
• PCIe 形成树状结构
• PCIe Switch 拓展连接更多设备
• 跨 CPU 通信路径分析

多 CPU 与 NUMA 架构

• 多 CPU 互联技术
• Intel CPU QPI/UPI
• SMP/UMA：共享内存与总线
• AMP/NUMA：非均匀内存访问
• NUMA 优化策略：局部性优化

GPU 高速互联技术

• GPU 间直连通信
• 全连接拓扑（Fully Connected Mesh）
• 带宽对比：NVLink vs PCIe
• NVSwitch 扩展技术

跨机通信与网络技术

• 网络接口卡（NIC）
• 有线与无线网卡
• 协议栈处理与 CPU 参与
• RDMA（Remote Direct Memory Access）

• 零拷贝与内核旁路
• RDMA实现方式：
① InfiniBand（原生RDMA）
② RoCE（RDMA over Converge Etnernet）
③ iWARP（基于TCP/IP）

数据中心与集群架构

1. 数据中心类型：

• 通算中心（CPU 为主）
• 超算中心（CPU+GPU）
• 智算中心（GPU/ASIC 为主）

2. 服务器类型与机架设计：

• 塔式服务器、机架式服务器、刀片服务器

3. 散热系统：

• 风冷系统
• 液冷系统（冷板式、沉浸式/浸没式）

集群拓展与网络拓扑

1. 算力扩展

• Scale Up：纵向扩展
• Scale Out：横向扩展
• Scale Across：跨域扩展

2. 超节点（Superpod）

3. 网络拓扑结构：

• 三层树状结构（接入/汇聚/核心层）
• 南北流量 vs 东西流量
• Spine-Leaf 结构
• 其他高性能计算网络拓扑

算网协同与在网计算

• 算网协同：网络感知计算需求、动态资源调整
• 在网计算：网络设备数据处理能力、计算任务卸载至网络层，边传输，边计算

总结与展望

梳理深度学习通信的核心技术与硬件架构。后续将深入训练与推理中的通信算法与优化实践。

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

大数据运维(1)

Ambari Server/Agent存活状态、心跳延迟；集群节点时间同步偏差（≤5s）、核心端口监听状态、组件日志磁盘占用率、Kerberos认证状态。

cover

计算机毕业设计源码：Python唯品会商品数据可视化分析系统 Flask框架 requests爬虫可视化数据清洗数据分析电商大模型大数据 agent（建议收藏）✅

cover

【小龙虾】OpenClaw装完不会配模型——手把手教你接入Claude和OpenAI模型

所有评论(0)

查看更多评论

Shining0596

已为社区贡献11条内容