跨越内存墙:基于CXL的分层内存网络与I/O路径优化技术融合
随着大型语言模型和生成式AI工作负载的爆发式增长,传统以GPU为中心的内存架构正面临严峻挑战——内存容量有限、数据移动开销大、通信延迟高。分层内存网络结合CXL(Compute Express Link)互连技术,为解决这些难题提供了全新路径。本文深入探讨cMPI、CXL-NIC、CXL内存池化与分层记忆网络等核心技术的融合机制,系统分析它们如何协同优化I/O路径、降低通信延迟、提升大规模AI训练
摘要
随着大型语言模型和生成式AI工作负载的爆发式增长,传统以GPU为中心的内存架构正面临严峻挑战——内存容量有限、数据移动开销大、通信延迟高。分层内存网络结合CXL(Compute Express Link)互连技术,为解决这些难题提供了全新路径。本文深入探讨cMPI、CXL-NIC、CXL内存池化与分层记忆网络等核心技术的融合机制,系统分析它们如何协同优化I/O路径、降低通信延迟、提升大规模AI训练与推理效率。通过梳理最新研究成果,本文为构建下一代可扩展、高能效的AI计算基础设施提供系统性参考。
关键词:CXL;分层内存;I/O路径优化;内存分解;AI基础设施
1. 引言:AI负载驱动的内存架构变革
现代AI工作负载,尤其是大型语言模型的训练与推理,对内存系统提出了双重挑战:一方面需要极高的带宽来满足计算单元的吞吐需求,另一方面需要巨大的容量来容纳模型权重和不断增长的KV缓存。传统以HBM(高带宽内存)为核心的GPU内存架构面临根本性困境——HBM容量受限(单GPU通常不超过数百GB)且成本高昂(每GB成本是DDR5的3倍以上)。
这一矛盾正在推动内存架构向分层系统演进。新的内存层次不再局限于CPU片内缓存-本地DRAM的传统结构,而是扩展为包含HBM、CXL内存池、持久内存乃至远端内存的复杂体系。在这一变革中,CXL作为关键的互连技术,凭借其内存语义访问和缓存一致性支持,成为连接各内存层次的核心桥梁。
然而,分层内存的引入也带来新的挑战:如何在多个内存层次间高效地移动数据?如何优化I/O路径以避免通信成为瓶颈?如何在保持可编程性的同时充分利用硬件能力?本文聚焦于这些核心问题,系统分析基于CXL的分层内存网络与I/O路径优化技术的融合之道。
2. 技术基础:CXL与分层内存架构
2.1 CXL协议栈与设备类型
CXL是建立在PCIe物理层之上的开放式互连标准,通过三种动态多路复用的子协议实现不同功能:
- CXL.io:基于PCIe协议,用于设备发现、配置和DMA传输
- CXL.cache:允许设备缓存并访问系统内存,保持缓存一致性
- CXL.mem:使CPU能够访问设备内存,将设备内存映射到系统地址空间
基于这三种协议的组合,CXL定义了三种设备类型:
- 类型1:仅实现CXL.io和CXL.cache,适用于智能网卡等需要缓存系统内存的加速器
- 类型2:实现全部三种协议,支持GPU等加速器将其本地内存部分映射到可缓存系统内存
- 类型3:仅实现CXL.io和CXL.mem,用于内存带宽和容量扩展
2.2 延迟层次:从纳秒到毫秒
理解分层内存的价值,关键在于认识不同存储层次的延迟差异。CXL联盟官方数据显示:
- CXL内存语义访问:200-500 ns
- NVMe存储:约100 μs(比CXL慢200-500倍)
- 传统存储共享:>10 ms(比CXL慢20,000倍以上)
这一量级差异意味着CXL在内存和存储之间创造了一个全新的性能层次——它既具备接近本地内存的访问速度,又支持远距离部署和资源共享。正如XConn在SC25的演示所示,基于CXL的内存池化相比RDMA可以实现3.8倍(200G RDMA)至6.5倍(100G RDMA)的性能提升。
3. 核心技术详解
3.1 cMPI:将MPI通信转化为内存事务
消息传递接口是HPC和分布式AI训练的基石,但传统MPI库依赖TCP/IP或InfiniBand等网络协议栈,通信路径复杂、延迟高昂。cMPI(CXL-aware MPI)的开创性工作彻底改变了这一局面。
核心思想:cMPI利用CXL内存共享能力,将跨节点MPI通信转化为简单的内存事务和数据拷贝操作,完全绕过传统网络协议栈。这意味着两个节点间的通信不再需要经过"GPU → DRAM → NIC → 远端NIC → 远端DRAM → 远端GPU"的长路径,而是通过共享的CXL内存直接进行数据交换。
性能突破:基于真实CXL平台的评估显示,cMPI实现了7.2-8.1倍于TCP网络的延迟降低。对于小消息场景,cMPI相比标准以太网NIC和高端SmartNIC,在延迟和带宽上分别取得最高49倍和72倍的性能优势。
技术挑战与解决方案:cMPI的设计面临几个关键挑战。首先是通过dax表示管理数据对象;其次是维护缓存一致性;最后是保证原子操作的正确性。研究团队通过精细的内存对象管理和利用CXL硬件一致性机制解决了这些问题。
相关论文:
- Xi Wang et al., “cMPI: Using CXL Memory Sharing for MPI One-Sided and Two-Sided Inter-Node Communications”, SC’25
3.2 CXL-NIC:重构端主机网络架构
传统PCIe NIC的根本性局限在于两点:一是DMA传输带来的高延迟(尤其对小数据包影响显著),二是缺乏与CPU的缓存一致性支持。CXL-NIC通过重新架构NIC设计,彻底解决了这些问题。
架构演进:CXL-NIC设计分为两个阶段:
-
类型1 CXL-NIC:用CXL.cache事务取代传统的PCIe DMA/MMIO操作,为CPU与NIC之间的控制平面和数据平面建立低延迟、一致性的通信路径。通过策略性地利用不同类型的CXL.cache请求(如CS-read用于预取、CO-read用于轮询、NC-write用于包传输),可以针对网络数据路径的不同阶段进行优化。
-
类型2 CXL-NIC:在类型1基础上引入CXL.mem,将片内一致性内存暴露给主机CPU,用于缓冲数据包和描述符。这使得数据可以灵活地放置在主机内存或NIC内存中,并支持在NIC端进行近数据处理。
性能收益:基于FPGA的原型验证表明,CXL-NIC相比传统PCIe SmartNIC显著降低了网络包处理和应用程序请求处理的尾延迟。更重要的是,通过在NIC的一致化内存中托管"热"数据,并使用CXL.cache处理来自主机内存的未命中请求,实现了跨越主机和设备的硬件管理分层内存系统。
应用协同加速:CXL-NIC还展示了引人注目的应用协同加速案例。在键值存储场景中,将KVS处理器实现在CXL-NIC的FPGA逻辑中,相比在SmartNIC的ARM核上运行软件处理,取得了显著的尾延迟降低。
相关论文:
- Houxiang Ji et al., “Re-architecting End-host Networking with CXL: Coherence, Memory, and Offloading”, MICRO’25
3.3 CXL内存池化与分层存储系统
内存分解是应对AI模型规模爆炸的核心技术方向。通过CXL交换机构建的内存池,可以实现计算与内存资源的独立扩展,从根本上解决资源搁置问题。
从静态分配到动态池化:CXL 2.0引入了多主机资源池能力,允许通过CXL交换机构建由主机和内存设备组成的小型网络。CXL 3.0进一步扩展了这一能力,支持在机架乃至pod级别构建动态可组合系统,并实现跨主机边界的细粒度内存共享。
AI推理中的KV缓存扩展:在LLM推理中,KV缓存随序列长度增长迅速,可能超过GPU显存容量。CXL内存池可以无缝扩展KV缓存存储空间,加速令牌解码,降低首令牌生成时间。XConn的演示显示,通过将预填充和解码阶段的工作负载分解,共享CXL内存能够显著提升AI推理性能。
近数据处理增强:CXL-NDP架构进一步放大了CXL内存池的价值。通过引入精度可扩展的位平面布局,CXL内存设备可以透明地支持动态量化和无损压缩,在保持标准CXL.mem接口的前提下,大幅提升有效带宽。评估显示,CXL-NDP可将权重内存占用减少25.2%,KV缓存减少46.9%,同时将模型加载延迟降低42.1%,推理吞吐量提升43%。
相关论文:
- Rui Xie et al., “Amplifying Effective CXL Memory Bandwidth for LLM Inference via Transparent Near-Data Processing”, arXiv’25
- Myoungsoo Jung, “Compute Can’t Handle the Truth: Why Communication Tax Prioritizes Memory and Interconnects in Modern AI Infrastructure”, arXiv’25
3.4 分层记忆网络:神经网络的记忆层次化
当我们将目光从系统架构转向神经网络本身,会发现一个有趣的思想交汇——神经网络研究者同样在探索记忆的层次化组织。
软注意力与硬注意力的困境:传统记忆网络面临两难选择:软注意力可微分、易于训练,但随着记忆规模扩大计算量剧增;硬注意力计算量小,但非凸、难以用反向传播训练。
分层记忆网络(HMN)的解决方案:Bengio团队提出的分层记忆网络采用介于两者之间的混合方法。通过基于聚类的数据结构组织记忆,并利用最大内积搜索(MIPS)进行高效寻址,HMN能够从极其庞大的记忆中读取信息,同时计算量远小于软注意力,训练复杂度又低于硬注意力。
两种不同的分层路径:值得注意的是,"分层记忆网络"这一概念存在两种不同解读。除上述基于存储结构的层次化外,还有研究从模型架构层面进行分层,在句子级别和单词级别分别构建记忆模块,以提升对未知词汇的应答能力。这提醒我们,内存层次化的思想正在从系统架构向算法设计渗透。
相关论文:
- Sarath Chandar et al., “Hierarchical Memory Networks”, ICLR’2017
4. 技术融合:协同超越之和
上述技术并非孤立发展,它们正在形成一个有机整体。理解这些技术如何协同工作,是把握未来AI基础设施演进方向的关键。
4.1 cMPI与CXL-NIC的互补
cMPI和CXL-NIC从不同角度优化I/O路径:cMPI聚焦于将MPI通信转化为内存事务,优化的是节点间的编程模型和通信语义;CXL-NIC则重构NIC硬件架构,优化的是底层的数据传输路径。两者结合时,cMPI可以利用CXL-NIC提供的低延迟、一致化硬件通路,进一步压缩通信延迟;而CXL-NIC可以通过cMPI暴露的更简洁编程接口,发挥其硬件能力。
4.2 分层存储与分层记忆的对应
有趣的是,系统层面的分层存储与算法层面的分层记忆正在形成对应关系。系统架构师将内存划分为HBM、CXL内存、NVMe等多个层次;而神经网络设计者也在将记忆组织为多层结构,高层记忆存储长期知识,低层记忆处理当前上下文。这种对应暗示着未来可能出现"内存感知的神经网络"——模型根据数据所在的内存层次自适应地调整访问策略。
4.3 统一的内存语义编程模型
随着CXL的普及,一个统一的、基于内存语义的编程模型正在浮现。无论是访问本地DRAM、远端CXL内存池,还是与智能网卡交互,程序员都可以使用相同的load/store语义。这大大简化了异构系统的编程复杂度,为上层应用透明地利用分层内存奠定基础。
4.4 CXL-over-XLink:混合互连设计
为平衡扩展性与性能,研究者提出了混合互连设计方案。CXL-over-XLink将CXL的内存语义优势与NVLink等加速器专用互连的高带宽优势结合——远程通信通过CXL保持一致性,本地通信则通过XLink实现高吞吐。这种混合设计为构建大规模、高性能的AI集群提供了新思路。
5. 挑战与未来方向
尽管前景光明,分层内存网络与I/O路径优化的融合仍面临诸多挑战。
硬件成熟度:当前CXL生态系统仍在发展初期。正如CXL-NIC研究的审稿人所指出,基于FPGA的原型与商用ASIC的对比存在诸多混杂变量。真正意义上的CXL 2.0/3.0硬件尚未大规模部署。
编程模型演进:如何将分层内存能力暴露给上层应用,同时保持编程简洁性,仍需持续探索。内存感知的调度、自动数据放置与迁移等机制尚不成熟。
一致性开销:缓存一致性虽带来编程便利,但并非零开销。在规模扩大时,一致性协议的元数据开销和协议复杂性可能成为新瓶颈。
未来方向:业界正朝着几个方向努力:更智能的内存控制器(如CXL-NDP所示范的)、跨主机的一致化内存共享、以及面向AI工作负载的专用内存层次优化。
6. 结论
分层内存网络与I/O路径优化技术的融合,正在重塑AI计算的基础设施形态。cMPI将MPI通信转化为内存事务,CXL-NIC重构端主机网络架构,CXL内存池化解锁资源弹性,分层记忆网络实现高效大规模记忆访问——这些技术从不同层面回应着AI负载对内存系统的挑战。
它们的协同效应尤为值得关注:内存语义统一编程模型简化了异构系统开发;硬件与软件的垂直整合放大了性能收益;系统层次化与算法层次化的对应开启了跨层优化的新可能。随着CXL生态的成熟和硬件的大规模部署,我们有理由相信,基于分层内存网络的AI基础设施将成为支撑下一代大模型训练与推理的基石。
参考文献
-
Xi Wang, Bin Ma, Jongryool Kim, et al. “cMPI: Using CXL Memory Sharing for MPI One-Sided and Two-Sided Inter-Node Communications”. In 37th ACM/IEEE International Conference for High Performance Computing (SC’25).
-
Houxiang Ji, Yifan Yuan, Yang Zhou, et al. “Re-architecting End-host Networking with CXL: Coherence, Memory, and Offloading”. In 58th IEEE/ACM International Symposium on Microarchitecture (MICRO’25).
-
XConn Technologies. “Overcoming the AI Memory Wall: How CXL Memory Pooling Powers the Next Leap in Scalable AI Computing”. Compute Express Link Blog, November 2025.
-
Myoungsoo Jung. “Compute Can’t Handle the Truth: Why Communication Tax Prioritizes Memory and Interconnects in Modern AI Infrastructure”. arXiv:2507.07223, 2025.
-
Sarath Chandar, Chinnadhurai Sankar, Eugene Vorontsov, et al. “Hierarchical Memory Networks”. In International Conference on Learning Representations (ICLR), 2017.
-
Xi Wang, et al. “cMPI: Using CXL Memory Sharing for MPI One-Sided and Two-Sided Inter-Node Communications”. arXiv:2510.05476, 2025.
-
Houxiang Ji, et al. “Re-architecting End-host Networking with CXL: Coherence, Memory, and Offloading”. MICRO’25 (forum discussion).
-
“CXL互联简介”. 知乎专栏, 2024.
-
Rui Xie, Asad Ul Haq, Linsen Ma, et al. “Amplifying Effective CXL Memory Bandwidth for LLM Inference via Transparent Near-Data Processing”. arXiv:2509.03377, 2025.
-
“Hierarchical Memory Networks for Answer Selection on Unknown Words”. ICLR相关解读, 2018.
更多推荐


所有评论(0)