RDMA（远程直接内存访问——允许外部设备直接访问主机的主存，绕过CPU，从而提高数据传输效率

它通过硬件卸载和内核旁路，将网络从“数据传输的管道”升级为“内存扩展的总线”，是支撑AI大模型训练、云原生存储和下一代数据中心的。

xixixi77777

835人浏览 · 2026-01-03 11:41:22

xixixi77777 · 2026-01-03 11:41:22 发布

RDMA是一项改变数据中心内部通信规则的革命性网络技术。它的核心思想是允许一台计算机直接访问另一台计算机的内存，而无需经过对方操作系统内核的介入，从而在硬件层面实现极低延迟和极高吞吐的数据传输。

一、核心原理：绕过内核的“数据高速公路”

要理解RDMA的革命性，先看传统TCP/IP网络的“三座大山”：

内核开销：数据发送/接收需要多次在用户态和内核态之间切换（系统调用），每次切换都是CPU时间的浪费。
内存拷贝：数据从应用缓冲区 -> 内核缓冲区 -> 网卡缓冲区，至少需要两次拷贝，消耗CPU和内存带宽。
CPU参与：TCP协议处理（封包/解包、校验、重传）完全由CPU负责，成为“数据搬运工”。

RDMA通过三大创新解决了这些问题：

传统TCP/IP网络 (通过内核)	RDMA网络 (绕过内核)	RDMA带来的质变
路径：应用 -> 内核协议栈 -> 网卡	路径：应用 -> RDMA网卡	零拷贝：数据直接从用户内存到网卡，无需内核中转。
操作：CPU执行拷贝和协议处理	操作：RDMA网卡硬件直接存取内存	内核旁路：完全绕过操作系统，零系统调用。
中断：数据到达后，网卡中断CPU处理	通知：传输完成后，通过完成队列异步通知应用	CPU卸载：协议处理由网卡硬件完成，释放CPU用于业务计算。

结果：延迟从数十微秒级降低到亚微秒级，CPU占用趋近于0，带宽达到链路极限。

二、三种工作模式详解

根据不同的部署环境和需求，RDMA有三种实现方式：

模式	全称	本质与架构	优点	缺点	典型场景
InfiniBand	-	专为RDMA设计的“一体化”网络。包含自己的交换机、网卡、链路层和传输层协议。	性能最佳、延迟最低、原生支持RDMA、拥塞控制优秀。	生态封闭、需要专用交换机、成本最高、与现有IP网络不兼容。	超算中心、高端AI训练集群、对延迟极度敏感的金融交易系统。
RoCE	RDMA over Converged Ethernet	在以太网上“承载”RDMA。保留了IB的传输层，但跑在以太网链路层上。	高性能、兼容现有以太网基础设施（需支持无损以太网）。	必须部署 PFC 和 ECN 等流控技术防止丢包，配置管理复杂。	主流AI/云数据中心、高性能存储、企业级HPC。
iWARP	Internet Wide Area RDMA Protocol	在标准TCP/IP协议栈上“实现”RDMA。将RDMA封装在TCP中。	兼容性最好，可路由，能跑在任意标准IP网络上。	性能最低（因TCP协议栈开销）、实现复杂、主流支持度渐弱。	跨广域网的低性能RDMA需求，特定历史遗留环境。

目前，高性能计算和数据中心的主流选择是：IB 和 RoCE (v2)，形成了一个“性能vs.成本/兼容性”的频谱。

三、核心优势与量化收益

极致低延迟：端到端延迟 < 1微秒（IB），而优质TCP/IP在10微秒以上。这直接决定了分布式AI训练中梯度同步的速度，从而缩短模型训练时间。
超高吞吐：轻松实现单端口200/400 Gb/s的线速传输，并接近零CPU占用。
CPU解放：将CPU从繁重的网络协议处理中解放出来，用于真正的业务计算。在AI训练中，意味着更多的CPU资源可用于数据预处理，让GPU“吃饱”。
应用透明性：通过用户态驱动，应用程序只需调用简单的read/write语义API即可享受RDMA能力，无需重构。

四、核心应用场景：重塑数据中心架构

AI/ML 分布式训练：
- 需求：千亿参数模型需要数百张GPU协同训练，梯度同步的通信开销是主要瓶颈。
- RDMA解决方案：采用All-Reduce等集合通信算法，通过RDMA网络在GPU间直接交换梯度数据，将通信时间从分钟级降至秒级，是万卡集群可行性的基石。
高性能存储与池化：
- 需求：解耦存储与计算，让计算节点能像访问本地SSD一样高速访问远端的存储池。
- RDMA解决方案：NVMe over Fabrics协议依赖RDMA实现。它允许主机通过RDMA网络直接对远端NVMe SSD发出读写命令，提供接近本地盘的延迟和吞吐，是构建存算分离架构的核心。
高速数据中心互联：
- 需求：跨数据中心的数据库同步、虚拟机热迁移。
- RDMA解决方案：通过RoCE over DCI技术，将两个数据中心的RDMA网络连通，实现远距离的内存级数据同步。
HPC与科学计算：
- 需求：大规模MPI作业中进程间频繁通信。
- RDMA解决方案：MPI实现底层默认采用RDMA，极大加速了流体力学、分子动力学等模拟计算。

五、部署挑战与未来

关键挑战：
- 网络要求苛刻：尤其是RoCE，要求构建无损以太网，需精细配置PFC和ECN，否则丢包会导致性能断崖式下跌。
- 技术复杂度高：从网卡、交换机到驱动、应用的全栈调优需要深厚专业知识。
- 成本：IB设备和高速无损以太网交换机成本高昂。
未来趋势：
- 与DPU/IPU深度融合：DPU/IPU将RDMA作为其核心功能之一，提供更强大的网络、存储和安全卸载。
- 拥塞控制智能化：利用AI/ML动态优化RDMA网络的流控和路由。
- 全闪存存储标配：NVMe-of将成为企业全闪存存储阵列的标准前端网络接口。

总结而言，RDMA不是简单的网络加速卡，而是一次以“内存为中心”的网络范式转移。 它通过硬件卸载和内核旁路，将网络从“数据传输的管道”升级为“内存扩展的总线”，是支撑AI大模型训练、云原生存储和下一代数据中心的决定性网络基础设施。当应用对延迟和CPU效率有极端要求时，RDMA是唯一的选择。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026必备！9个AI论文工具，专科生搞定毕业论文+格式规范！

2048 AI社区

Milvus：可检索记忆的漂流瓶

本文摘要：文章系统介绍了构建基于大模型的文档问答系统的技术演进过程。从最初的简单Prompt方案，到引入Milvus向量数据库解决记忆存储问题，再到使用LlamaIndex实现知识检索的工程化，最后通过LangChain构建智能决策层。完整的技术栈包括：Milvus存储文档向量，LlamaIndex处理文档切分和检索，LangChain实现智能路由决策。这种分层架构既保证了系统性能，又实现了查询的