跨越内存墙：基于CXL的分层内存网络与I/O路径优化技术融合

随着大型语言模型和生成式AI工作负载的爆发式增长，传统以GPU为中心的内存架构正面临严峻挑战——内存容量有限、数据移动开销大、通信延迟高。分层内存网络结合CXL（Compute Express Link）互连技术，为解决这些难题提供了全新路径。本文深入探讨cMPI、CXL-NIC、CXL内存池化与分层记忆网络等核心技术的融合机制，系统分析它们如何协同优化I/O路径、降低通信延迟、提升大规模AI训练

weixin_30777913

859人浏览 · 2026-03-02 12:50:20

weixin_30777913 · 2026-03-02 12:50:20 发布

摘要

关键词：CXL；分层内存；I/O路径优化；内存分解；AI基础设施

1. 引言：AI负载驱动的内存架构变革

现代AI工作负载，尤其是大型语言模型的训练与推理，对内存系统提出了双重挑战：一方面需要极高的带宽来满足计算单元的吞吐需求，另一方面需要巨大的容量来容纳模型权重和不断增长的KV缓存。传统以HBM（高带宽内存）为核心的GPU内存架构面临根本性困境——HBM容量受限（单GPU通常不超过数百GB）且成本高昂（每GB成本是DDR5的3倍以上）。

这一矛盾正在推动内存架构向分层系统演进。新的内存层次不再局限于CPU片内缓存-本地DRAM的传统结构，而是扩展为包含HBM、CXL内存池、持久内存乃至远端内存的复杂体系。在这一变革中，CXL作为关键的互连技术，凭借其内存语义访问和缓存一致性支持，成为连接各内存层次的核心桥梁。

然而，分层内存的引入也带来新的挑战：如何在多个内存层次间高效地移动数据？如何优化I/O路径以避免通信成为瓶颈？如何在保持可编程性的同时充分利用硬件能力？本文聚焦于这些核心问题，系统分析基于CXL的分层内存网络与I/O路径优化技术的融合之道。

2. 技术基础：CXL与分层内存架构

2.1 CXL协议栈与设备类型

CXL是建立在PCIe物理层之上的开放式互连标准，通过三种动态多路复用的子协议实现不同功能：

CXL.io：基于PCIe协议，用于设备发现、配置和DMA传输
CXL.cache：允许设备缓存并访问系统内存，保持缓存一致性
CXL.mem：使CPU能够访问设备内存，将设备内存映射到系统地址空间

基于这三种协议的组合，CXL定义了三种设备类型：

类型1：仅实现CXL.io和CXL.cache，适用于智能网卡等需要缓存系统内存的加速器
类型2：实现全部三种协议，支持GPU等加速器将其本地内存部分映射到可缓存系统内存
类型3：仅实现CXL.io和CXL.mem，用于内存带宽和容量扩展

2.2 延迟层次：从纳秒到毫秒

理解分层内存的价值，关键在于认识不同存储层次的延迟差异。CXL联盟官方数据显示：

CXL内存语义访问：200-500 ns
NVMe存储：约100 μs（比CXL慢200-500倍）
传统存储共享：>10 ms（比CXL慢20,000倍以上）

这一量级差异意味着CXL在内存和存储之间创造了一个全新的性能层次——它既具备接近本地内存的访问速度，又支持远距离部署和资源共享。正如XConn在SC25的演示所示，基于CXL的内存池化相比RDMA可以实现3.8倍（200G RDMA）至6.5倍（100G RDMA）的性能提升。

3. 核心技术详解

3.1 cMPI：将MPI通信转化为内存事务

消息传递接口是HPC和分布式AI训练的基石，但传统MPI库依赖TCP/IP或InfiniBand等网络协议栈，通信路径复杂、延迟高昂。cMPI（CXL-aware MPI）的开创性工作彻底改变了这一局面。

核心思想：cMPI利用CXL内存共享能力，将跨节点MPI通信转化为简单的内存事务和数据拷贝操作，完全绕过传统网络协议栈。这意味着两个节点间的通信不再需要经过"GPU → DRAM → NIC → 远端NIC → 远端DRAM → 远端GPU"的长路径，而是通过共享的CXL内存直接进行数据交换。

性能突破：基于真实CXL平台的评估显示，cMPI实现了7.2-8.1倍于TCP网络的延迟降低。对于小消息场景，cMPI相比标准以太网NIC和高端SmartNIC，在延迟和带宽上分别取得最高49倍和72倍的性能优势。

技术挑战与解决方案：cMPI的设计面临几个关键挑战。首先是通过dax表示管理数据对象；其次是维护缓存一致性；最后是保证原子操作的正确性。研究团队通过精细的内存对象管理和利用CXL硬件一致性机制解决了这些问题。

相关论文：

Xi Wang et al., “cMPI: Using CXL Memory Sharing for MPI One-Sided and Two-Sided Inter-Node Communications”, SC’25

3.2 CXL-NIC：重构端主机网络架构

传统PCIe NIC的根本性局限在于两点：一是DMA传输带来的高延迟（尤其对小数据包影响显著），二是缺乏与CPU的缓存一致性支持。CXL-NIC通过重新架构NIC设计，彻底解决了这些问题。

架构演进：CXL-NIC设计分为两个阶段：

类型1 CXL-NIC：用CXL.cache事务取代传统的PCIe DMA/MMIO操作，为CPU与NIC之间的控制平面和数据平面建立低延迟、一致性的通信路径。通过策略性地利用不同类型的CXL.cache请求（如CS-read用于预取、CO-read用于轮询、NC-write用于包传输），可以针对网络数据路径的不同阶段进行优化。
类型2 CXL-NIC：在类型1基础上引入CXL.mem，将片内一致性内存暴露给主机CPU，用于缓冲数据包和描述符。这使得数据可以灵活地放置在主机内存或NIC内存中，并支持在NIC端进行近数据处理。

性能收益：基于FPGA的原型验证表明，CXL-NIC相比传统PCIe SmartNIC显著降低了网络包处理和应用程序请求处理的尾延迟。更重要的是，通过在NIC的一致化内存中托管"热"数据，并使用CXL.cache处理来自主机内存的未命中请求，实现了跨越主机和设备的硬件管理分层内存系统。

应用协同加速：CXL-NIC还展示了引人注目的应用协同加速案例。在键值存储场景中，将KVS处理器实现在CXL-NIC的FPGA逻辑中，相比在SmartNIC的ARM核上运行软件处理，取得了显著的尾延迟降低。

相关论文：

Houxiang Ji et al., “Re-architecting End-host Networking with CXL: Coherence, Memory, and Offloading”, MICRO’25

3.3 CXL内存池化与分层存储系统

内存分解是应对AI模型规模爆炸的核心技术方向。通过CXL交换机构建的内存池，可以实现计算与内存资源的独立扩展，从根本上解决资源搁置问题。

从静态分配到动态池化：CXL 2.0引入了多主机资源池能力，允许通过CXL交换机构建由主机和内存设备组成的小型网络。CXL 3.0进一步扩展了这一能力，支持在机架乃至pod级别构建动态可组合系统，并实现跨主机边界的细粒度内存共享。

AI推理中的KV缓存扩展：在LLM推理中，KV缓存随序列长度增长迅速，可能超过GPU显存容量。CXL内存池可以无缝扩展KV缓存存储空间，加速令牌解码，降低首令牌生成时间。XConn的演示显示，通过将预填充和解码阶段的工作负载分解，共享CXL内存能够显著提升AI推理性能。

近数据处理增强：CXL-NDP架构进一步放大了CXL内存池的价值。通过引入精度可扩展的位平面布局，CXL内存设备可以透明地支持动态量化和无损压缩，在保持标准CXL.mem接口的前提下，大幅提升有效带宽。评估显示，CXL-NDP可将权重内存占用减少25.2%，KV缓存减少46.9%，同时将模型加载延迟降低42.1%，推理吞吐量提升43%。

相关论文：

Rui Xie et al., “Amplifying Effective CXL Memory Bandwidth for LLM Inference via Transparent Near-Data Processing”, arXiv’25
Myoungsoo Jung, “Compute Can’t Handle the Truth: Why Communication Tax Prioritizes Memory and Interconnects in Modern AI Infrastructure”, arXiv’25

3.4 分层记忆网络：神经网络的记忆层次化

当我们将目光从系统架构转向神经网络本身，会发现一个有趣的思想交汇——神经网络研究者同样在探索记忆的层次化组织。

软注意力与硬注意力的困境：传统记忆网络面临两难选择：软注意力可微分、易于训练，但随着记忆规模扩大计算量剧增；硬注意力计算量小，但非凸、难以用反向传播训练。

分层记忆网络（HMN）的解决方案：Bengio团队提出的分层记忆网络采用介于两者之间的混合方法。通过基于聚类的数据结构组织记忆，并利用最大内积搜索（MIPS）进行高效寻址，HMN能够从极其庞大的记忆中读取信息，同时计算量远小于软注意力，训练复杂度又低于硬注意力。

两种不同的分层路径：值得注意的是，"分层记忆网络"这一概念存在两种不同解读。除上述基于存储结构的层次化外，还有研究从模型架构层面进行分层，在句子级别和单词级别分别构建记忆模块，以提升对未知词汇的应答能力。这提醒我们，内存层次化的思想正在从系统架构向算法设计渗透。

相关论文：

Sarath Chandar et al., “Hierarchical Memory Networks”, ICLR’2017

4. 技术融合：协同超越之和

上述技术并非孤立发展，它们正在形成一个有机整体。理解这些技术如何协同工作，是把握未来AI基础设施演进方向的关键。

4.1 cMPI与CXL-NIC的互补

cMPI和CXL-NIC从不同角度优化I/O路径：cMPI聚焦于将MPI通信转化为内存事务，优化的是节点间的编程模型和通信语义；CXL-NIC则重构NIC硬件架构，优化的是底层的数据传输路径。两者结合时，cMPI可以利用CXL-NIC提供的低延迟、一致化硬件通路，进一步压缩通信延迟；而CXL-NIC可以通过cMPI暴露的更简洁编程接口，发挥其硬件能力。

4.2 分层存储与分层记忆的对应

有趣的是，系统层面的分层存储与算法层面的分层记忆正在形成对应关系。系统架构师将内存划分为HBM、CXL内存、NVMe等多个层次；而神经网络设计者也在将记忆组织为多层结构，高层记忆存储长期知识，低层记忆处理当前上下文。这种对应暗示着未来可能出现"内存感知的神经网络"——模型根据数据所在的内存层次自适应地调整访问策略。

4.3 统一的内存语义编程模型

随着CXL的普及，一个统一的、基于内存语义的编程模型正在浮现。无论是访问本地DRAM、远端CXL内存池，还是与智能网卡交互，程序员都可以使用相同的load/store语义。这大大简化了异构系统的编程复杂度，为上层应用透明地利用分层内存奠定基础。

4.4 CXL-over-XLink：混合互连设计

为平衡扩展性与性能，研究者提出了混合互连设计方案。CXL-over-XLink将CXL的内存语义优势与NVLink等加速器专用互连的高带宽优势结合——远程通信通过CXL保持一致性，本地通信则通过XLink实现高吞吐。这种混合设计为构建大规模、高性能的AI集群提供了新思路。

5. 挑战与未来方向

尽管前景光明，分层内存网络与I/O路径优化的融合仍面临诸多挑战。

硬件成熟度：当前CXL生态系统仍在发展初期。正如CXL-NIC研究的审稿人所指出，基于FPGA的原型与商用ASIC的对比存在诸多混杂变量。真正意义上的CXL 2.0/3.0硬件尚未大规模部署。

编程模型演进：如何将分层内存能力暴露给上层应用，同时保持编程简洁性，仍需持续探索。内存感知的调度、自动数据放置与迁移等机制尚不成熟。

一致性开销：缓存一致性虽带来编程便利，但并非零开销。在规模扩大时，一致性协议的元数据开销和协议复杂性可能成为新瓶颈。

未来方向：业界正朝着几个方向努力：更智能的内存控制器（如CXL-NDP所示范的）、跨主机的一致化内存共享、以及面向AI工作负载的专用内存层次优化。

6. 结论

分层内存网络与I/O路径优化技术的融合，正在重塑AI计算的基础设施形态。cMPI将MPI通信转化为内存事务，CXL-NIC重构端主机网络架构，CXL内存池化解锁资源弹性，分层记忆网络实现高效大规模记忆访问——这些技术从不同层面回应着AI负载对内存系统的挑战。

它们的协同效应尤为值得关注：内存语义统一编程模型简化了异构系统开发；硬件与软件的垂直整合放大了性能收益；系统层次化与算法层次化的对应开启了跨层优化的新可能。随着CXL生态的成熟和硬件的大规模部署，我们有理由相信，基于分层内存网络的AI基础设施将成为支撑下一代大模型训练与推理的基石。

参考文献

Xi Wang, Bin Ma, Jongryool Kim, et al. “cMPI: Using CXL Memory Sharing for MPI One-Sided and Two-Sided Inter-Node Communications”. In 37th ACM/IEEE International Conference for High Performance Computing (SC’25).
Houxiang Ji, Yifan Yuan, Yang Zhou, et al. “Re-architecting End-host Networking with CXL: Coherence, Memory, and Offloading”. In 58th IEEE/ACM International Symposium on Microarchitecture (MICRO’25).
XConn Technologies. “Overcoming the AI Memory Wall: How CXL Memory Pooling Powers the Next Leap in Scalable AI Computing”. Compute Express Link Blog, November 2025.
Myoungsoo Jung. “Compute Can’t Handle the Truth: Why Communication Tax Prioritizes Memory and Interconnects in Modern AI Infrastructure”. arXiv:2507.07223, 2025.
Sarath Chandar, Chinnadhurai Sankar, Eugene Vorontsov, et al. “Hierarchical Memory Networks”. In International Conference on Learning Representations (ICLR), 2017.
Xi Wang, et al. “cMPI: Using CXL Memory Sharing for MPI One-Sided and Two-Sided Inter-Node Communications”. arXiv:2510.05476, 2025.
Houxiang Ji, et al. “Re-architecting End-host Networking with CXL: Coherence, Memory, and Offloading”. MICRO’25 (forum discussion).
“CXL互联简介”. 知乎专栏, 2024.
Rui Xie, Asad Ul Haq, Linsen Ma, et al. “Amplifying Effective CXL Memory Bandwidth for LLM Inference via Transparent Near-Data Processing”. arXiv:2509.03377, 2025.
“Hierarchical Memory Networks for Answer Selection on Unknown Words”. ICLR相关解读, 2018.

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

东方云权通 v1.0：一款高并发、多功能的手戳+AI辅助电商系统发布

2048 AI社区

【AI开发】—— 山东省智能政策助手部署实战：从 0 到 1 上线与更新避坑指南

2048 AI社区

LangChain v1 版本变更学习

LangChain v1版本进行了重大架构重构，主要围绕三个核心改进方向：全新的Agent创建方式、统一的内容块标准和简化的命名空间。其中最显著的变化是Agent创建机制从create_react_agent升级为更灵活的create_agent，引入了中间件架构，通过六大钩子（before_agent、before_model等）实现对Agent生命周期的完全控制。同时，结构化输出功能从需要额外